"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач.… — @gonzo_ML

"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили. Scaling Self-Play with Self-Guidance __Luke Bailey, Kaiyue Wen, Kefan Dong, Tatsunori Hashimoto, Tengyu Ma__ Статья: https://arxiv.org/abs/2604.20209v1 Код: https://github.com/LukeBailey181/sgs Датасет: https://huggingface.co/datasets/LukeBailey181Pub/D_3k Ревью: https://arxiviq.substack.com/p/scaling-self-play-with-self-guidance # TL;DR ЧТО сделали: Исследователи из Стэнфорда представили Self-Guided Self-Play (SGS) — алгоритм асимметричного self-play для формального доказательства теорем. Он решает частую проблему хакинга награды (reward hacking) при автоматической генерации curriculum'а, добавляя в цикл языковую модель Guide (Гид). Этот Гид явно оценивает синтетические задачи на математическую элегантность и релевантность, не давая генератору скатываться в вырожденные выходы. ПОЧЕМУ это важно: Поддержание self-play на длительных горизонтах вычислений — главное ""бутылочное горлышко"" автономного обучения с подкреплением (RL). Систематически курируя синтетические данные, этот фреймворк позволяет модели на 7B параметров обойти бейзлайн на 671B. Это доказывает, что качественная фильтрация данных — критическое требование для масштабирования инференса в RL. Для практиков: Для команд, разрабатывающих следующее поколение рассуждающих моделей (reasoning models), вывод однозначен: оптимизация механизма фильтрации данных внутри цикла self-play так же важна, как и оптимизация самого алгоритма RL. Обычная максимизация сложности задач больше не работает. Гид тут: https://t.me/gonzo_ML_podcasts/3374"

Из этого канала