HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей через RL. Их 4B модель показывает 81.2% на AIME24 и 79.4% на AIME25, что сопоставимо с моделями во много раз больше. Фокус в правильной калибровке сложности данных - нужно перевернутое J-образное распределение, где большинство задач сложные, но решаемые. Они динамически отфильтровывают слишком простые задачи во время тренировки, поддерживая оптимальный уровень сложности. Так модель вынуждена постоянно учиться и расти над собой, в то же время не надрываясь на слишком сложных задачах. Важно поддерживать и разнообразие генераций — модели имеют три температурные зоны: стабильная генерация (низкое разнообразие), осторожное экспериментирование (оптимальный баланс) и полный коллапс. POLARIS тренируют так, чтобы модель всегда экспериментировала и не выдавала слишком похожих решений, а по мере роста уверенности модели в ходе тренировки постепенно повышают температуру - с 1.4 до 1.5 для Qwen3-4B. Это поддерживает разнообразие решений, необходимое для relative policy optimization. Для решение проблемы разреженных наград используют Rollout Rescue: когда все 8 попыток решения проваливаются, система подставляет сохраненное успешное решение из предыдущих эпох. Для каждой задачи поддерживается буфер с последним правильным ответом, который обновляется при появлении новых успешных решений. Это гарантирует, что модель всегда имеет положительные примеры для обучения даже на самых сложных задачах. Экстраполяция длины через Yarn позволяет моделям генерить 90K+ токенов качественных рассуждений, хотя тренировались они на меньших длинах. Без Yarn точность на длинных цепочках рассуждений падает с 50% до 26%. Многоэтапная тренировка с постепенным увеличением контекста и удалением ограничений энтропии/KL loss для агрессивного исследования пространства решений завершают картину. Результат – 4B модель, которую можно запустить на телефоне, которая решает олимпиадные задачи почти на уровне 235B Qwen 3. А вишенка на торте — опубликовали не только веса модели, но и датасет на котором тренировали POLARIS. Веса 4B модели Датасет Блогпост о тренировке @ai_newz
HKU NLP выкатили POLARIS - рецепт для выжимания максимума из маленьких моделей…
Из этого канала
- #3987Hunyuan GameCraft — нейронный игровой движок от Tencent Выглядит на голову выше…
Hunyuan GameCraft — нейронный игровой движок от Tencent Выглядит на голову выше Genie 2 и других конкурентов, при этом сильно более интерективная.
- #3988Gemini CLI — официальный агент для Gemini от Google Использовать можно…
Gemini CLI — официальный агент для Gemini от Google Использовать можно бесплатно просто залогинившись с аккаунтом Google — дают до 60 запросов в минуту к…
- #3989Теперь Claude Artifacts могут вызывать API Claude Это делает их заметно…
Теперь Claude Artifacts могут вызывать API Claude Это делает их заметно полезнее — теперь можно создавать полноценные интерактивные инструменты прямо в чате, а…
- #3983Нейродайджест за неделю (#74) Неделя YC AI Startup School - Выступление Сэма…
Нейродайджест за неделю (#74) Неделя YC AI Startup School - Выступление Сэма Альтмана — прямое включение с места событий! - Про AGI и мнения — были…
- #3982А вот выступление Илона Маска. Он сам приехать на YC AI Startup School не смог,…
А вот выступление Илона Маска. Он сам приехать на YC AI Startup School не смог, из-за чего я очень огорчился (я хотел с ним занетворкать).