дешевый но хороший OCR документов. Не так давно мне довелось иметь честь недолго участвовать в поддержке OCR проекта, ядром которого была такая ~~корявенькая~~ библиотека-шаблонизатор промптов как BAML. Вообще, типичное такое внедрение AI на бэк с наскока – модели в проекте использовались большие (openai, google), а разультаты... Ну скажем так – результаты были неплохие, но оставляли желать лучшего. В проекте было достаточно популярных проблем (вроде отсутствия достаточного количества eval тестов), но главной технической проблемой, по моему мнению, являлся как раз таки BAML. Почему? Ответ прозаичен – BAML не умеет в Structured Output моделей и не хочет в него уметь. Нет SO – нет SGR. Нет SGR – нет возможности без мучений моделировать и создавать надежные AI системы. *** К сожалению, я не успел внедрить SGR в тот проект (хотя мои тесты и показали что SGR работал с теми же моделями лучше, а иногда даже быстрее – в проекте были другие приоритеты). И вот меня не покидала идея попробовать сделать OCR на маленьких VLM моделях. Благодаря Валерию, который сейчас хостит Qwen3 VL 8B Instruct и бесплатно дает ее попробовать, я наконец закрыл этот гештальт :) Главная цель была набросать OCR фотографий чеков; Результат... просто отличный! ☀️ Наколеночный POC вы можете посмотреть в этом репозитории, забрать себе и попробовать запустить OCR сами. Это очень ограниченная, простая реализация чтобы просто проверить модель. Продуктовая OCR система, разумеется, потребует некоторых важных доработок (подсказываю в `REAME.md`). Но этого сниппета достаточно чтобы: - посмотреть неплохой пример SGR - набросать туда побольше файлов и тестов чтобы оценить качество этой или других VLM моделей предметно. А квен этот мне очень нравится! Год-полтора назад мне сложно было представить что так дешево можно собрать вполне себе качественный и умный OCR. @neuralstack