"Сейчас одновременно вышло сразу несколько работ про само-дистилляцию, эта одна из них. Работа любопытная, в ней сразу несколько идей. Во-первых, проблема RLVR с бинарными наградами снимается, если смотреть не только на итоговую награду, но и на логи ошибок в процессе (тот же компилятор много чего полезного говорит кроме ""удалось"" или нет). Это называется RLRF (Reinforcement Learning with Rich Feedback). Во-вторых, собственно дистилляция от себя же, но с дополнительным промптом в виде этих логов. В-третьих, предложен очередной подход к TTT, Test-Time Self-Distillation, когда модель на одном тестовом запросе генерит варианты и пытается дообучиться через такую вот дистилляцию. Перекликается, например, с недавним TTT-Discover. И ещё прикольно, что показали про многословность GRPO — можно получать такой же результат с сильно меньшим количеством токенов, GRPO просто забалтывает в защитных целях, это по сути reward hacking. Reinforcement Learning via Self-Distillation __Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause__ Статья: https://arxiv.org/abs/2601.20802 Ревью: https://arxiviq.substack.com/p/reinforcement-learning-via-self-distillation Код: https://github.com/lasgroup/SDPO # TL;DR ЧТО сделали: Предложили SDPO (Self-Distillation Policy Optimization) — алгоритм онлайн-обучения с подкреплением, который использует «богатый фидбек» (ошибки компилятора, логи юнит-тестов) вместо разреженных скалярных наград. Вместо внешнего учителя или reward model, SDPO использует *саму текущую политику*, обусловленную полученным фидбеком и исходным вопросом, в роли «само-учителя» (Self-Teacher). Этот механизм ретроспективно оценивает попытку модели и дистиллирует скорректированные вероятности токенов обратно в политику. ПОЧЕМУ это важно: Подход решает проблему назначение вклада (credit assignment), присущую современным методам RLVR (Reinforcement Learning with Verifiable Rewards). Преобразование неструктурированного текстового фидбека в плотные градиенты на уровне токенов позволяет моделям самообучаться значительно быстрее без использования GPT-4 в качестве учителя. Эмпирически метод достигает SOTA точности, требуя в 4 раза меньше генераций, чем сильные бейзлайны, и при этом избавляет модель от излишней многословности (reward hacking), часто наблюдаемой у рассуждающих моделей. Подробнее: https://t.me/gonzo_ML_podcasts/2270"