SmolLM 3 — полностью открытая 3B модель от Huggingface Это самая сильная 3B модель — она опережает Llama-3-3B и Qwen 2.5-3B, но отстаёт от более крупных 4B Qwen 3 и Gemma 3. Модель — гибридный ризонер, как новые Claude или Qwen 3. Самое ценное в релизе — блогпост с деталями тренировки и опубликованные конфиги, так что воспроизвести модель будет крайне просто. Модель тренировали 24 дня на 384 GPU H100 (220к часов) по трёхстадийной схеме: сначала Web + Code + Math, затем постепенно повышали долю кода и математики. После основного претрейна добавили mid-training для расширения контекста, затем mid-training на ризонинг. К сожалению, ризонингу модель учили исключительно на готовых ризонинг трейсах, RL тут совсем не использовался. Посттрейнили с SFT на 1,8B токенов: 1B без reasoning-трейсов и 0,8B с /think, данные взяли из 22 открытых датасетов. Тренировали 4 эпохи (~8B токенов) с BFD-packing и маскировали лосс на пользовательских репликах, чтобы не штрафовать system-промпты и tool-calls. Затем модель тюнили с Anchored Preference Optimization: реальные пары из Tulu 3 дополнили синтетическими chosen vs rejected ответами Qwen3-32B/0.6B, покрыв оба режима /think и /no_think. После этого несколько чекпоинтов полученных при тюне с APO смешали в одну, а уже её смерджили с мидтрейн-чекпоинтом — так сохранили 128k контекст, без просадки на математике и коде. Иметь такие открытые рецепты в общем доступе крайне важно — они служат бейзлайном, поверх которого можно последовательно улучшать любой этап пайплайна. Без таких рецептов, делать ресёрч по претрейну гораздо сложнее. Блогпост Веса Конфиги для тренировки с помощью nanotron @ai_newz
SmolLM 3 — полностью открытая 3B модель от Huggingface Это самая сильная 3B…
Из этого канала
- #4016Вышел Grok 4 SOTA на нескольких бенчах — выбивает идеальный результат на…
Вышел Grok 4 SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4…
- #4021Что лучше чем подписка за $200? Подписка за $300! Только бы такие инновации в…
Что лучше чем подписка за $200? Подписка за $300! Только бы такие инновации в бизнес модели не начали копировать другие компании. @ainewz
- #4022Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая…
Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное…
- #4014"Там чет мунвели тизерят свою видео-генерацию для киноиндустрии,…
"Там чет мунвели тизерят свою видео-генерацию для киноиндустрии, натренированную на ""чистых данных"". Ну, ну. Посмотрим. Пока модель потыкать нельзя. @ainewz"
- #4013Вышел доклад от François Chollet, который я слушал ещё 3 недели назад в…
Вышел доклад от François Chollet, который я слушал ещё 3 недели назад в Сан-Франциско на YC AI Startup School.