"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую разобранную (Reinforcement Learning via Self-Distillation), вышла даже чуть раньше. Математика и инженерия внутри практически те же. Эта конкретная мне кажется лучше по Дойчу, в том смысле, что она даёт лучшее объяснение — объясняет профит подобного подхода через работу on-policy. Отсюда же следует и большая полезность данных из ICL. Получается, есть способ радикально улучшить результаты SFT через замену его на RL с самодистилляцией. Цена высока, но понятна, уверен эту часть в ближайшее время все ускорят. Self-Distillation Enables Continual Learning __Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal__ Статья: https://arxiv.org/abs/2601.19897 Код: http://idanshenfeld.com/SDFT Ревью: https://arxiviq.substack.com/p/self-distillation-enables-continual # TL;DR ЧТО сделали: Авторы представили SDFT (Self-Distillation Fine-Tuning) — метод, который превращает стандартные датасеты с демонстрациями в сигнал для on-policy обучения. Используя копию модели, которой подают на вход демонстрацию (учитель), для обучения ""слепой"" модели (студента), SDFT аппроксимирует задачу обратного обучения с подкреплением (Inverse Reinforcement Learning, IRL). Это позволяет модели обновлять веса на основе собственных сгенерированных траекторий, а не просто статично клонировать поведение эксперта. ПОЧЕМУ это важно: Непрерывное обучение (continual learning) в фундаментальных моделях упирается в дилемму стабильности-пластичности: Supervised Fine-Tuning (SFT) склонен к катастрофическому забыванию из-за своей off-policy природы (страдает от сдвига распределения), а для on-policy RL требуются функции награды, которых часто нет под рукой. SDFT предлагает решение ""лучшее из двух миров"": стабильность и обобщающую способность on-policy методов, используя при этом только обычные данные демонстраций. Метод значительно обходит SFT в задачах последовательного освоения навыков. Подробнее: https://t.me/gonzo_ML_podcasts/2286"
"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую…
Из этого канала
- #4691"Ещё одна работа на близкую тему. Здесь не самодистилляция, а использование…
"Ещё одна работа на близкую тему. Здесь не самодистилляция, а использование умного учителя для переписывания обучающих данных низкого качества.
- #4696Сегодня пост про поделку от Лёши Тихонова, одного из основателей этого канала и…
Сегодня пост про поделку от Лёши Тихонова, одного из основателей этого канала и когда-то его регулярного автора.
- #4697Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого…
Как я и обещал Грише, напишу поподробнее на русском про мою попытку беглого анализа Moltbook.
- #4681"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна…
"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна из них. Работа любопытная, в ней сразу несколько идей.
- #4677METR обновили свои бенчмарки Time Horizon до версии 1.1 Модели после 2023 года…
METR обновили свои бенчмарки Time Horizon до версии 1.1 Модели после 2023 года ускоряются быстрее, а после 2024 ещё быстрее.