"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач. Задним умом идея настолько простая, что странно, что раньше не добавили. Scaling Self-Play with Self-Guidance __Luke Bailey, Kaiyue Wen, Kefan Dong, Tatsunori Hashimoto, Tengyu Ma__ Статья: https://arxiv.org/abs/2604.20209v1 Код: https://github.com/LukeBailey181/sgs Датасет: https://huggingface.co/datasets/LukeBailey181Pub/D_3k Ревью: https://arxiviq.substack.com/p/scaling-self-play-with-self-guidance # TL;DR ЧТО сделали: Исследователи из Стэнфорда представили Self-Guided Self-Play (SGS) — алгоритм асимметричного self-play для формального доказательства теорем. Он решает частую проблему хакинга награды (reward hacking) при автоматической генерации curriculum'а, добавляя в цикл языковую модель Guide (Гид). Этот Гид явно оценивает синтетические задачи на математическую элегантность и релевантность, не давая генератору скатываться в вырожденные выходы. ПОЧЕМУ это важно: Поддержание self-play на длительных горизонтах вычислений — главное ""бутылочное горлышко"" автономного обучения с подкреплением (RL). Систематически курируя синтетические данные, этот фреймворк позволяет модели на 7B параметров обойти бейзлайн на 671B. Это доказывает, что качественная фильтрация данных — критическое требование для масштабирования инференса в RL. Для практиков: Для команд, разрабатывающих следующее поколение рассуждающих моделей (reasoning models), вывод однозначен: оптимизация механизма фильтрации данных внутри цикла self-play так же важна, как и оптимизация самого алгоритма RL. Обычная максимизация сложности задач больше не работает. Гид тут: https://t.me/gonzo_ML_podcasts/3374"
"Улучшение Self-Play за счёт добавления гида для фильтрации обучающих задач.…
Из этого канала
- #5270"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот…
"Я тут в свободное время продолжаю интересные мне эксперименты и решил вот развить давние темы Миши Бурцева про Memory Transformer…
- #5271"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе…
"Для практиков: Если вы экспериментируете со скейлингом вычислений на инференсе и рекурсивными циклами рассуждений, эта статья подсвечивает критическое…
- #5278"""Кладбище домашних животных"", Стивен Кинк"
"""Кладбище домашних животных"", Стивен Кинк"
- #5260Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep…
Продолжим выходные интересной теории The Linear Centroids Hypothesis: How Deep Network Features Represent Data Thomas Walker, Ahmed Imtiaz Humayun, Randall…
- #5255И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There…
И чтоб два раза не вставать, ещё одна интересная работа про теорию DL There Will Be a Scientific Theory of Deep Learning Jamie Simon, Daniel Kunin, Alexander…