Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера. Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine Authors: __Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, Jürgen Schmiduber__ Paper: https://arxiv.org/abs/2510.21614 Code: https://github.com/metauto-ai/HGM Review: https://arxiviq.substack.com/p/huxley-godel-machine-human-level # TL;DR Что сделали? В статье выявляют и решают проблему «несоответствия метапродуктивности и производительности» — критический изъян существующих самосовершенствующихся агентов для написания кода. Суть проблемы в том, что текущая производительность на бенчмарках плохо предсказывает долгосрочный потенциал для улучшений. Для решения авторы представляют Машину Хаксли-Гёделя (HGM) — алгоритм, аппроксимирующий теоретически оптимальную Машину Гёделя. Вместо того чтобы полагаться на оценку отдельных агентов, HGM руководствуется новой метрикой, основанной на анализе всей линии потомков — Метапродуктивностью клады (CMP). Эта метрика агрегирует производительность всего дерева потомков агента, чтобы лучше оценить его будущий потенциал. Такой подход сочетается с эффективной асинхронной стратегией древовидного поиска, которая отделяет процесс создания агентов от их оценки. Почему это важно? Эта работа знаменует собой смену парадигмы в проектировании автономных систем ИИ: переход от жадной, краткосрочной оптимизации к более строгому подходу, ориентированному на долгосрочный эволюционный потенциал. Метод не только эффективнее в поиске более качественных агентов, но и значительно экономичнее: он требует до 6,8 раз меньше CPU-часов, чем предыдущие SOTA-методы. Самое главное — агент, разработанный с помощью HGM, достиг производительности на уровне человека на бенчмарке SWE-bench Lite, сравнявшись с лучшими официально верифицированными результатами агентов, спроектированных людьми. Это демонстрирует новый перспективный путь к автоматизированному проектированию ИИ, способному создавать робастные, переносимые решения экспертного уровня. Подробнее: https://t.me/gonzo_ML_podcasts/1327