Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro. Вышел подробный технический отчет о процессе создания русскоязычных моделей T-lite и T-pro от Т-банка. Часто бывает, что команды скупо описывают свои методики обучения, особенно в части обработки данных, но тут ребята детально раскрыла весь процесс от выбора базовой модели и подбора датасетов, до финальных экспериментов. Вместо обучения с нуля они использовали взяли за основу модель Qwen2.5 (я до сих пор считаю ее одной из лучших моделей, чтобы поверх тренить что-то свое) и продолжили претрейн на русском языке. Претрейн происходил в две стадии — первая с бюджетом 100 миллиардов токенов и распределением 90% русского и 10% английского языка. Значительную часть датасета (25%) составил код, что согласуется с исследованиями о влиянии кодовых данных на способности рассуждения. Вторая стадия (40 миллиардов токенов) фокусировалась на высококачественных данных, включая инстракт датасеты. По заветам FineWeb-Edu, команда отфильтровала датасет по образовательной ценности (лишь 6% веб-контента получило высшие оценки). Обучались на 256 H100. По результатам бенчей модели показали заметный прирост в русскоязычных задачах, особенно в направлениях ЕГЭ, RWSD и математических рассуждениях. О деталях посттрейна (SFT и alignment) обещают рассказать в следующем посте. ТехРепорт на хабре @ai_newz
Опубликовали техрепорт о претрейне рускоязычных LLM T-lite и T-pro. Вышел…
Из этого канала
- #3733LanDiff – гибридный видеогенератор из LLM и Диффузии Китайцы не спят, а…
LanDiff – гибридный видеогенератор из LLM и Диффузии Китайцы не спят, а клепают видеомодели. Этот проект интересен своим необычным подходом и результатами.
- #3740RIP Photoshop (нет) Потестил я мультимодальную Gemini Flash 2.0 (Image…
RIP Photoshop (нет) Потестил я мультимодальную Gemini Flash 2.0 (Image Generation) Experimental.
- #3749Нейродайджест за неделю (#60) 🎉 Юбилейный выпуск! LLM - Анонсы OpenAI –…
Нейродайджест за неделю (#60) 🎉 Юбилейный выпуск! LLM - Анонсы OpenAI – докинули удобных фич для API, в том числе computer use.
- #3730"🔥Gemma 3 - новый лидер (второе место) в опен-сорсе Перфоманс: - Топ2 среди…
"🔥Gemma 3 - новый лидер (второе место) в опен-сорсе Перфоманс: - Топ2 среди опенсорса в human preference evaluations на LLM арене, то есть, генерит тексты,…
- #3728Новые тулы для агентов от OpenAI 🔎 Специальные версии GPT 4o/4o-mini в API…
Новые тулы для агентов от OpenAI 🔎 Специальные версии GPT 4o/4o-mini в API теперь могут использовать поиск, прямо как ChatGPT .