"Meta*** под конец года выпустили прекрасную статью, в которой предложили новый способ обучения агентов Современный ИИ все еще напрямую зависит от человеческой разметки и человеческих данных в целом. И с этим куча проблем: дорого, долго, ""данные кончаются"" и тд. В Meta к тому же уверены, что это в принципе жеский потолок на пути к AGI: если учить агентов только на человеческом следе, то обучение сводится к шлифовке человеческого опыта. Тогда можно ли быть на 100% уверенным, что такие системы могут научиться чему-то вне распределения и стать умнее нас? Особенно это относится к таким областям, как кодинг, о котором дальше и пойдет речь. Исследователи предложили Self-Play SWE-RL – способ обучать агентов так, чтобы они самосовершенствовались на своих же данных. Состоит Self-Play SWE-RL из двух сущностей: Bug-injector и Bug-solver. На вход системе поступает какой-то репозиторий с кодом, Bug-injector изучает его, ломает код и ослабляет тесты так, чтобы баг спрятался. Задача Bug-solver очевидна: починить код, и при этом без issue-текста, без подсказок, без готовых тест-раннеров. И если в процессе он сам что-то поломал, этот кейс тоже становится частью датасета и расширяет выборку. Нужно понимать, что это не просто синтетические баги. Тут ломает и чинит код одна и та же политика (то есть это просто разные роли одного агента). В этом смысле подход чем-то напоминает GAN: солвер учится за счет того, что инджектор становится умнее, и наоборот. Результаты следующие: ** – Code World Model (CWM) на 32B, которая уже прошла этап sft и которую обучали таким образом, вышла на +10.4% на SWE-bench Verified и на +7.8% на SWE-bench Pro – Если сравнивать с обычным RL, то такой подход дает +2.4% на SWE-bench Verified и на +3.6% на SWE-bench Pro Не прорыв, конечно, но редко какой пайплайн сегодня дает такие ощутимые приросты, так что довольно интересно (но код, к сожалению, не дали). https://arxiv.org/pdf/2512.18552"