Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M. Говорят, что работает лучше Qwen2.5VL, но не со всеми языками. Импонирует то, что модель извлекает не просто текст, а сразу структуру. Что там под капотом? - Это vision LM со специальными токенами для элементов markdown - Основана на SmolVLM-256M — самой компактной vision LM. - Обучена на страницах и транскрипциях Docling (с использованием нового формата DocTags для лучшего отображения элементов и их местоположения). - Читает документ за 0.35 секунды (на A100) при использовании 0.5 GB VRAM. - Доступна в Hugging Face transformers и vLLM. Модельку качать тут, пробовать тут. Кто-нибудь уже пробовал на своих задачах? Ваш, @llm_under_hood 🤗 PS: Whitepaper: https://arxiv.org/html/2503.11576v1
Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M.…
Из этого канала
- #533Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от…
Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от Mistral по своим оценкам на бенчмарке очень похожа на предыдущую версию 3.0 от 25…
- #534Все архитектуры Enterprise RAG Challenge Какие RAG архитектуры работают лучше…
Все архитектуры Enterprise RAG Challenge Какие RAG архитектуры работают лучше всего с бизнес-документами? Вот вам обновленный и интерактивный leaderboard по…
- #535"Сегодня я запускаю новый эксперимент. Это курс AI+Coding для одной компании.…
"Сегодня я запускаю новый эксперимент. Это курс AI+Coding для одной компании. Какую проблему мы пытаемся решить? Во множестве компаний есть свои IT отделы с…
- #531"Можно ли использовать LLM для оптимизации промптов? Время от времени…
"Можно ли использовать LLM для оптимизации промптов? Время от времени кто-нибудь в чате поднимает этот вопрос.
- #530Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все…
Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все версии Qwen, кроме Max.