Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного… — @gonzo_ML

Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда. Meta-Harness: End-to-End Optimization of Model Harnesses __Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn__ Статья: https://arxiv.org/abs/2603.28052 Код: https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact Страница проекта: https://yoonholee.com/meta-harness/ Ревью: https://arxiviq.substack.com/p/meta-harness-end-to-end-optimization # TL;DR ЧТО сделали: Авторы представили Meta-Harness — агентную outer-loop систему, которая автономно ищет и переписывает исполняемую инфраструктуру (обвязку или «harness») вокруг языковой модели. Предоставляя агенту-кодеру неограниченный доступ к файловой системе с сырыми логами предыдущих попыток, система итеративно программирует кастомную логику поиска, управления памятью и сборки промптов. ПОЧЕМУ это важно: Ручное создание программных обвязок вокруг фундаментальных моделей стало главным бутылочным горлышком. Meta-Harness доказывает, что если дать агенту возможность искать причинно-следственные связи и дебажить свою же несжатую историю выполнения, получаются сложные stateful-стратегии. Они значительно превосходят лучшие (SOTA) написанные человеком оркестрации в задачах классификации, сложного кодинга и математических задачах на рассуждение уровня IMO. Для практиков: Для тех, кто собирает compound AI системы, эта статья знаменует стратегический сдвиг: от оптимизации промптов к автоматизированному проектированию архитектуры. Вместо того чтобы полагаться на текстовые саммари с потерей информации или обновление весов модели, Meta-Harness показывает: прямой доступ к сырым логам позволяет передовым агентам-кодерам автономно писать, дебажить и оптимизировать сложные Python-обвязки. Сгенерированные таким образом инфраструктуры дают огромный прирост производительности. Будущее системной инженерии — за мета-оптимизацией. Эволюционировать свою обвязку здесь: https://t.me/gonzo_ML_podcasts/3061

Из этого канала