Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating… — @gonzo_ML

Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? __Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev__ Статья: https://arxiv.org/abs/2602.11988 Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository # TL;DR ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как `AGENTS.md`) улучшают работу автономных ИИ-кодеров. Поскольку в существующих бенчмарках отсутствуют репозитории с файлами контекста от самих разработчиков, авторы собрали AGENTBENCH — новый набор для оценки из 138 реальных задач по программной инженерии на Python из нишевых репозиториев. Они протестировали четыре передовые модели в трёх сценариях: без файла контекста, с файлом контекста от LLM и с написанным человеком файлом контекста. ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи. Подробнее: https://t.me/gonzo_ML_podcasts/2646

Из этого канала