"Meta*** под конец года выпустили прекрасную статью, в которой предложили новый способ обучения агентов Современный ИИ все еще напрямую зависит от человеческой разметки и человеческих данных в целом. И с этим куча проблем: дорого, долго, ""данные кончаются"" и тд. В Meta к тому же уверены, что это в принципе жеский потолок на пути к AGI: если учить агентов только на человеческом следе, то обучение сводится к шлифовке человеческого опыта. Тогда можно ли быть на 100% уверенным, что такие системы могут научиться чему-то вне распределения и стать умнее нас? Особенно это относится к таким областям, как кодинг, о котором дальше и пойдет речь. Исследователи предложили Self-Play SWE-RL – способ обучать агентов так, чтобы они самосовершенствовались на своих же данных. Состоит Self-Play SWE-RL из двух сущностей: Bug-injector и Bug-solver. На вход системе поступает какой-то репозиторий с кодом, Bug-injector изучает его, ломает код и ослабляет тесты так, чтобы баг спрятался. Задача Bug-solver очевидна: починить код, и при этом без issue-текста, без подсказок, без готовых тест-раннеров. И если в процессе он сам что-то поломал, этот кейс тоже становится частью датасета и расширяет выборку. Нужно понимать, что это не просто синтетические баги. Тут ломает и чинит код одна и та же политика (то есть это просто разные роли одного агента). В этом смысле подход чем-то напоминает GAN: солвер учится за счет того, что инджектор становится умнее, и наоборот. Результаты следующие: ** – Code World Model (CWM) на 32B, которая уже прошла этап sft и которую обучали таким образом, вышла на +10.4% на SWE-bench Verified и на +7.8% на SWE-bench Pro – Если сравнивать с обычным RL, то такой подход дает +2.4% на SWE-bench Verified и на +3.6% на SWE-bench Pro Не прорыв, конечно, но редко какой пайплайн сегодня дает такие ощутимые приросты, так что довольно интересно (но код, к сожалению, не дали). https://arxiv.org/pdf/2512.18552"
"Meta под конец года выпустили прекрасную статью, в которой предложили новый…
Из этого канала
- #8575OpenAI нанимает Head of Preparedness – человека, который будет готовиться к…
OpenAI нанимает Head of Preparedness – человека, который будет готовиться к рискам ИИ Это абсолютно новая для стартапа роль, и это будет позиция не про…
- #8577Разработчик Claude Code признался, что последние 30 дней 100% его контрибьютов…
Разработчик Claude Code признался, что последние 30 дней 100% его контрибьютов в Claude Code были написаны самим Claude Code И это, причем, не просто какой-то…
- #8578Джунам посвящается
Джунам посвящается
- #8571Ну и добивочка от Андрея под тем же постом: «Если вы не следите за новостями…
Ну и добивочка от Андрея под тем же постом: «Если вы не следите за новостями хотя бы 30 дней, ваши взгляды уже устарели» Это вам на случай, если вы хотели…
- #8570За этот год ИИ в России стал заметно приземлённее И это, пожалуй, главный…
За этот год ИИ в России стал заметно приземлённее И это, пожалуй, главный сдвиг. Всё меньше разговоров «про потенциал» и всё больше решений, которые…