Первый день ПМЭФ подходит к концу. Выпустили сегодня первую версию модели из… — @Ivan_Oseledets

Первый день ПМЭФ подходит к концу. Выпустили сегодня первую версию модели из нашего семейства Optimal Cognitive Core, OCC-RAG. Это компактная SLM для Q&A по контексту. Модель доступна в 2 размерах: 0.6B и 1.7B. Несмотря на маленькое число параметров обе уверенно отвечают на сложные multi-hop вопросы, рассуждают пошагово и корректно, отказываются отвечать, когда контекста недостаточно. Как мы этого добились? 1. Сложные синтетические данные. Открытые QA-датасеты, как правило, маленькие и не таргетируют задачу faithfulness. Модели учатся отвечать, но не всегда следовать контексту. Поэтому мы построили собственный пайплайн генерации данных: с помощью метода Wikontic (https://t.me/Ivan_Oseledets/283) извлекаем граф знаний из текстов и генерируем вопросы по путям в этом графе. Получаются по-настоящему сложные multi-hop задачи, где нужно объединить факты из нескольких источников, например: «В каком городе родился режиссёр фильма, получившего Оскар в год рождения Леонардо ДиКаприо?». Дополнительно пайплайн умеет генерировать вопросы, на которые в контексте нет ответа, чтобы отдельно учить модель отказываться. В итоге наш метод позволяет генерировать данные из любых неструктурированных документов в почти неограниченном количестве! 2. Mid-training В качестве базы взяли Qwen3-0.6B-Base и Qwen3-1.7B-Base и провели масштабный mid-training на пороядка 8 млрд токенов. Мы также дополнили данные специальным форматом рассуждения, который цитирует источники прямо в ответе. Это дополнительно повышает faithfulness. Прогнали OCC-RAG на HotpotQA, MuSiQue и TAT-QA. Добавили ConFiQA, один из самых сложных бенчмарков на faithfulness, где модель должна следовать контексту, даже если он противоречит общеизвестным фактам. Итого: Качество на уровне моделей в 2–6 раз больше по размеру; на ConFiQA обходят даже Qwen3-32B; заметно лучше следуют контексту и реже подменяют его внутренними знаниями; среди специализированных малых QA-моделей (например, Pleias-RAG) показывают лучший результат. Репорт на HuggingFace Daily Papers: https://huggingface.co/papers/2606.00683 Отмечу, что работа по согласованности, четкости и скорости в команде — эпичная. Продолжаем работать над улучшенной версией для tool-calling и Agentic RAG задач. Ждите обновлений! P.S. Не успел выйти с форума, уже увидел новости у ТАСС, РГ, в телеграм, Forbes, Код Дурова, много где. Радует, когда наши медиа следят за повесткой, реагируя не только на «что-то новое от Гугла». Кстати, про значимость малых моделей сегодня как раз хорошо написал Андрей Себрант из Яндекса. Почитайте — https://www.forbes.ru/mneniya/562028-maly-da-udaly-pocemu-vazny-ii-modeli-kotorye-sovsem-ne-na-sluhu

Из этого канала