"Продолжим выходные самодистилляции. Другая работа, очень похожая на предыдущую разобранную (Reinforcement Learning via Self-Distillation), вышла даже чуть раньше. Математика и инженерия внутри практически те же. Эта конкретная мне кажется лучше по Дойчу, в том смысле, что она даёт лучшее объяснение — объясняет профит подобного подхода через работу on-policy. Отсюда же следует и большая полезность данных из ICL. Получается, есть способ радикально улучшить результаты SFT через замену его на RL с самодистилляцией. Цена высока, но понятна, уверен эту часть в ближайшее время все ускорят. Self-Distillation Enables Continual Learning __Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal__ Статья: https://arxiv.org/abs/2601.19897 Код: http://idanshenfeld.com/SDFT Ревью: https://arxiviq.substack.com/p/self-distillation-enables-continual # TL;DR ЧТО сделали: Авторы представили SDFT (Self-Distillation Fine-Tuning) — метод, который превращает стандартные датасеты с демонстрациями в сигнал для on-policy обучения. Используя копию модели, которой подают на вход демонстрацию (учитель), для обучения ""слепой"" модели (студента), SDFT аппроксимирует задачу обратного обучения с подкреплением (Inverse Reinforcement Learning, IRL). Это позволяет модели обновлять веса на основе собственных сгенерированных траекторий, а не просто статично клонировать поведение эксперта. ПОЧЕМУ это важно: Непрерывное обучение (continual learning) в фундаментальных моделях упирается в дилемму стабильности-пластичности: Supervised Fine-Tuning (SFT) склонен к катастрофическому забыванию из-за своей off-policy природы (страдает от сдвига распределения), а для on-policy RL требуются функции награды, которых часто нет под рукой. SDFT предлагает решение ""лучшее из двух миров"": стабильность и обобщающую способность on-policy методов, используя при этом только обычные данные демонстраций. Метод значительно обходит SFT в задачах последовательного освоения навыков. Подробнее: https://t.me/gonzo_ML_podcasts/2286"