Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M. Говорят, что работает лучше Qwen2.5VL, но не со всеми языками. Импонирует то, что модель извлекает не просто текст, а сразу структуру. Что там под капотом? - Это vision LM со специальными токенами для элементов markdown - Основана на SmolVLM-256M — самой компактной vision LM. - Обучена на страницах и транскрипциях Docling (с использованием нового формата DocTags для лучшего отображения элементов и их местоположения). - Читает документ за 0.35 секунды (на A100) при использовании 0.5 GB VRAM. - Доступна в Hugging Face transformers и vLLM. Модельку качать тут, пробовать тут. Кто-нибудь уже пробовал на своих задачах? Ваш, @llm_under_hood 🤗 PS: Whitepaper: https://arxiv.org/html/2503.11576v1