Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей работе предложили простой вариант самодистилляции на невалидированных сэмплах, который работает неожиданно хорошо для кода. Есть над чем подумать. Embarrassingly Simple Self-Distillation Improves Code Generation __Ruixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang__ Статья: https://arxiv.org/abs/2604.01193v1 Репа: https://github.com/apple/ml-ssd Ревью: https://arxiviq.substack.com/p/embarrassingly-simple-self-distillation # TL;DR ЧТО сделали: Исследователи представили Simple Self-Distillation (SSD) — метод post-training, при котором языковая модель делает файнтюнинг на своих собственных сырых, непровалидированных аутпутах. Генерируя семплы с определёнными настройками температуры и транкации и напрямую оптимизируя cross-entropy лосс на этих таргетах, модель достигает огромного прироста качества безо всякого обучения с подкреплением (RL), верификаторов или более сильной модели-учителя. ПОЧЕМУ это важно: Работа фундаментально оспаривает идею, что для улучшения языковой модели нужны высококачественные внешние данные или сложные песочницы для исполнения кода. Исследователи показали, что непровалидированные, а порой и вовсе лишённые смысла сгенерированные данные могут реорганизовать внутренние распределения вероятностей модели. Это устраняет структурные конфликты при декодировании и предлагает отлично масштабируемую, вычислительно дешёвую альтернативу текущим парадигмам AI alignment и рассуждающих моделей. Для практиков: Исторически главным узким местом для команд, создающих ИИ-ассистентов для программирования, была генерация провалидированных синтетических данных или нестабильность RL. Статья доказывает, что скрытые способности генерации кода можно раскрыть, просто эксплуатируя геометрию распределения самой модели. SSD извлекает сигнал не из «правильности» данных, а из того, как сдвиг температуры при семплировании заставляет модель математически подавлять токены-дистракторы в строгих синтаксических конструкциях, сохраняя при этом разнообразие в критических точках ветвления алгоритма. Самодистиллировать тут: https://t.me/gonzo_ML_podcasts/3075