Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо… — @AGI_and_RL

Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать. Агент работает с кодом. Одна и та же моделька работает в двух ролях - кто ставит задачи и кто решает. И получается такой селфплей Обе эти роли действуют на программах, входам для них и на их выходах (триплеты). И для каждой из ролей назначаются свои реварды. И выполняют 3 вида внутренних задач в процессе решения: Deduction - для программы и входных данных предиктит выход Abduction - по программе и выходу предиктит параметры для программы Induction - синтезирует программу по входам и выходам У каждого вида задач свои буферы триплетов. Базовой моделькой генерируется первоначальный набор задач, затем в процессе обучения роль ставящая задачи создает их вариации, а решатель решает. Успешные триплеты добавляются в буфер Генерируемые программы выполняются по своим входам и выходам (ну в зависимости от типа задачи) и по результатам получают реварды. Ну и учатся рлем лучше решать задачи. В целом по бенчам на математике сопоставимы или обходят другие хорошие подходы с данными. Так понял. Довольно интересно Подробнее читаем тут Absolute Zero: Reinforced Self-play Reasoning with Zero Data https://www.arxiv.org/abs/2505.03335 https://www.alphaxiv.org/ru/overview/2505.03335 https://andrewzh112.github.io/absolute-zero-reasoner/ https://github.com/LeapLabTHU/Absolute-Zero-Reasoner PS собираем ИИнфу и проекты делаем в https://t.me/researchim

Из этого канала