Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо заготовленных данных. Моделька сама формулирует задачи, сама пытается их решать. Агент работает с кодом. Одна и та же моделька работает в двух ролях - кто ставит задачи и кто решает. И получается такой селфплей Обе эти роли действуют на программах, входам для них и на их выходах (триплеты). И для каждой из ролей назначаются свои реварды. И выполняют 3 вида внутренних задач в процессе решения: Deduction - для программы и входных данных предиктит выход Abduction - по программе и выходу предиктит параметры для программы Induction - синтезирует программу по входам и выходам У каждого вида задач свои буферы триплетов. Базовой моделькой генерируется первоначальный набор задач, затем в процессе обучения роль ставящая задачи создает их вариации, а решатель решает. Успешные триплеты добавляются в буфер Генерируемые программы выполняются по своим входам и выходам (ну в зависимости от типа задачи) и по результатам получают реварды. Ну и учатся рлем лучше решать задачи. В целом по бенчам на математике сопоставимы или обходят другие хорошие подходы с данными. Так понял. Довольно интересно Подробнее читаем тут Absolute Zero: Reinforced Self-play Reasoning with Zero Data https://www.arxiv.org/abs/2505.03335 https://www.alphaxiv.org/ru/overview/2505.03335 https://andrewzh112.github.io/absolute-zero-reasoner/ https://github.com/LeapLabTHU/Absolute-Zero-Reasoner PS собираем ИИнфу и проекты делаем в https://t.me/researchim
Полный ноль в ризонинге В смысле, что для обучению ризонингу не надо…
Из этого канала
- #1091просто double DQN проходит простой уровень из марио…
просто double DQN проходит простой уровень из марио https://www.reddit.com/r/reinforcementlearning/comments/1kidoi3/mario/
- #1092хм интересная штука двое ребят kalomaze (хз кто он, в иксе часто про всякое…
хм интересная штука двое ребят kalomaze (хз кто он, в иксе часто про всякое рльное пишет) и Will Brown (он одним из первых выложил пример с кодом по grpo для…
- #1093Optimal Brain Damage - это когда ежедневно читаешь статьи по RL LLM агентам
Optimal Brain Damage - это когда ежедневно читаешь статьи по RL LLM агентам
- #1087Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов…
Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров Модельку саму не выкладывают Интересного тут 1. моделька от хуавея 2.
- #1084Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись…
Ученые из Японии выложили 2 датасета для трена по которым изначально прошлись ллмками Llama-3.3-70B-Instruct SwallowCode ~ 16 Billion tokens…