* Самодистилляция: Ещё более удивительно, что авторы показывают, как самодистилляция (тоже упоминалась в канале не раз, один из интересных кейсов тут https://t.me/gonzo_ML/202) -- когда модель на 300M параметров выступает учителем для нового 300М-студента той же архитектуры -- может привести к лучшей модели. Обучая студента на смеси реальных и синтетических данных от учителя, студент превосходит своего учителя, достигая асимптоты регуляризованного рецепта без необходимости в более крупной модели на каком-либо этапе обучения. Это не просто трюк с аугментацией данных; в статье предполагается, что это можно интерпретировать как форму неявного ансамблирования, сродни объединению исходного учителя с вновь инициализированным студентом, что позволяет студенту найти лучшее решение. Это интересный механизм аугментации данных, причём ключевым моментом является необходимость подмешивать реальные данные, чтобы избежать коллапса модели. Статья подтверждает, что эти улучшения -- не просто артефакты лосса на валидации. Выигрыш напрямую переносится на нижестоящие задачи: лучший ансамбль превосходит лучшую нерегуляризованную модель в среднем на 9% на бенчмарках PIQA, SciQ и ARC Easy. Более того, методы оказываются высокоэффективными в сценарии continued pre-training (CPT). При применении к математическому датасету ансамбль, обученный всего на 4B токенов данных, превзошёл базовую модель, обученную на полных 73B токенов, достигнув 17.5-кратного улучшения эффективности данных. Остаются и вопросы. Идея асимптоты опирается на экстраполяцию степенных законов, которая , может быть шумной, и результаты следует интерпретировать как приблизительные оценки. Эксперименты, хоть и обширны, проводились на моделях до 1.4B параметров, может на других масштабах что-нибудь происходит. Тем не менее, результаты интересные.
Самодистилляция: Ещё более удивительно, что авторы показывают, как…
Из этого канала
- #4053Мы уже писали про варианты JEPA, например, JEPA для time series…
Мы уже писали про варианты JEPA, например, JEPA для time series (https://t.me/gonzoMLpodcasts/513) или для видео, типа V-JEPA (https://t.me/gonzoML/3501) и…
- #4055Когда же уже R2 наконец?! DeepSeek-V3.1 → DeepSeek-V3.1-Terminus ✨ What’s…
Когда же уже R2 наконец?! DeepSeek-V3.1 → DeepSeek-V3.1-Terminus ✨ What’s improved? 🌐 Language consistency: fewer CN/EN mix-ups & no more random chars.
- #4057Что почитать в дороге
Что почитать в дороге
- #4039Хотя регуляризация решает проблему масштабирования одной модели, авторы…
Хотя регуляризация решает проблему масштабирования одной модели, авторы задаются вопросом, есть ли лучший способ потратить бесконечные вычислительные ресурсы.
- #4038Pre-training under infinite compute Konwoo Kim, Suhas Kotha, Percy Liang,…
Pre-training under infinite compute Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto Статья: https://arxiv.org/abs/2509.14786 Код:…