Другой отличительной чертой является приверженность неограниченному (open-ended) поиску, вдохновлённому биологической эволюцией. Поддерживая архив всех сгенерированных агентов, который можно визуально представить как «дерево архива» с соответствующим графиком прогресса, документирующим родословную ключевых качественных улучшений, DGM может одновременно исследовать несколько эволюционных путей. Это позволяет ей обнаруживать «ступеньки» — функции или решения, которые могут быть временно неоптимальными, но открывают путь к будущим прорывам. Такой механизм помогает избежать локальных оптимумов, в которые могут попасть системы, всегда строящиеся на единственной лучшей или самой последней версии. Это контрастирует со многими подходами мета-обучения, которые оптимизируют агентов в фиксированном пространстве поиска или используют отдельного, фиксированного мета-агента. DGM, напротив, представляет собой единую систему, где агент *является* мета-агентом, непосредственно совершенствующим свой собственный дизайн — промпты, рабочие процессы и использование инструментов. Авторы утверждают, что такое самореферентное улучшение критически важно: рассматривая самосовершенствование как задачу программирования, успехи на бенчмарках напрямую отражают возросшую способность к дальнейшему самосовершенствованию. Использование замороженных FM позволяет системе сосредоточиться на инновациях в *дизайне* и *рабочих процессах* агентов-программистов, а не на вычислительно запретной задаче переобучения самих FM. Это разумный выбор для демонстрации принципов архитектуры самомодифицирующихся агентов. Однако текущая методология имеет свои допущения и потенциальные ограничения. Сам процесс исследования (управление архивом, логика выбора родителей) пока что является фиксированным алгоритмом, не подверженным самомодификации со стороны DGM. Хотя архив помогает избежать некоторых локальных оптимумов, обширность пространства поиска означает, что риск застревания в более широких субоптимальных областях остаётся. Кроме того, успех системы зависит от предположения, что производительность на выбранных бенчмарках по программированию точно отражает истинное, обобщаемое улучшение способностей к программированию и самомодификации. Способность DGM к самосовершенствованию была тщательно протестирована на двух бенчмарках по программированию: SWE-bench (подмножество проверенных задач) и Polyglot (задачи на нескольких языках программирования). Результаты весьма показательны. DGM продемонстрировала значительный рост своих способностей к программированию, улучшив показатель успешности на SWE-bench с начальных 20.0% до 50.0%, а на полном бенчмарке Polyglot — с 14.2% до 30.7% (при этом на подмножестве из 50 задач наблюдался рост с 14.0% до 38.0%). Важно отметить, что DGM существенно превзошла абляционные бейзлайны. Вариант DGM «без самосовершенствования» (где мета-агент был фиксированным) стагнировал или улучшался гораздо меньше, а другой вариант «без неограниченного поиска» (который строился только на последней версии) также показал ограниченный прогресс. Эти абляции подчёркивают необходимость обоих ключевых компонентов для устойчивого развития. Лучшие агенты, обнаруженные DGM, достигли производительности, сравнимой, а в некоторых случаях и превосходящей, сильные вручную созданные open-source бейзлайны, такие как Aider на Polyglot. Качественно DGM научилась улучшать свои собственные инструменты и рабочие процессы. Например, она разработала более гранулярные возможности редактирования файлов (например, замена строк), улучшила управление длинным окном контекста (например, автоматическое суммирование предыдущих взаимодействий) и усовершенствовала свои стратегии решения проблем (например, предпринимая несколько попыток решения и используя другую FM для оценки патчей). Эти обнаруженные улучшения также продемонстрировали обобщающую способность, перенося преимущества на различные базовые FM и языки программирования.
Другой отличительной чертой является приверженность неограниченному…
Из этого канала
- #3680Хотя прирост производительности заметен, в статье не представлены тесты…
Хотя прирост производительности заметен, в статье не представлены тесты статистической значимости (например, планки погрешностей или доверительные интервалы)…
- #3681Безопасность и интерпретируемость остаются первостепенными проблемами; по мере…
Безопасность и интерпретируемость остаются первостепенными проблемами; по мере самомодификации агентов их внутренняя логика может становиться всё более сложной…
- #3687Хинтона вам в ленту
Хинтона вам в ленту
- #3678Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents Авторы:…
Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents Авторы: Jenny Zhang, Shengran Hu, Cong Lu, Robert Lange, Jeff Clune Статья:…
- #3677Очередная интересная статья от крутого коллектива, включающего Jeff Clune,…
Очередная интересная статья от крутого коллектива, включающего Jeff Clune, Sakana AI и прочих. Sakana — это вообще, кажется, самая интересная лаба Азии.