Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? __Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev__ Статья: https://arxiv.org/abs/2602.11988 Ревью: https://arxiviq.substack.com/p/evaluating-agentsmd-are-repository # TL;DR ЧТО сделали: Исследователи из ETH Zurich и LogicStar.ai тщательно проверили, действительно ли файлы контекста на уровне репозитория (такие как `AGENTS.md`) улучшают работу автономных ИИ-кодеров. Поскольку в существующих бенчмарках отсутствуют репозитории с файлами контекста от самих разработчиков, авторы собрали AGENTBENCH — новый набор для оценки из 138 реальных задач по программной инженерии на Python из нишевых репозиториев. Они протестировали четыре передовые модели в трёх сценариях: без файла контекста, с файлом контекста от LLM и с написанным человеком файлом контекста. ПОЧЕМУ это важно: Несмотря на повсеместные рекомендации лидеров индустрии использовать файлы контекста для направления агентов, эта статья показывает, что сгенерированные LLM файлы контекста на самом деле снижают процент успешного решения задач и при этом раздувают стоимость инференса более чем на 20%. Эти результаты ставят под сомнение стандартные рабочие эвристики, показывая, что предоставление моделям широких архитектурных обзоров часто отвлекает их, заставляя уходить в бесконечное исследование кодовой базы вместо сфокусированного выполнения задачи. Подробнее: https://t.me/gonzo_ML_podcasts/2646
Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating…
Из этого канала
- #4885Любопытная работа про память RNN и подобных линейных моделей. Memory Caching:…
Любопытная работа про память RNN и подобных линейных моделей. Memory Caching: RNNs with Growing Memory Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam…
- #4889"Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про…
"Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про ""чужую"" науку. Как генерить научные гипотезы, чуждые людям.
- #4893~~AGI~~. SAI! AI Must Embrace Specialization via Superhuman Adaptable…
~~AGI~~. SAI! AI Must Embrace Specialization via Superhuman Adaptable Intelligence Judah Goldfeder, Philippe Wyder, Yann LeCun, Ravid Shwartz-Ziv Paper:…
- #4877Базу подвели под появление разных красивых структур в репрезентациях, выученных…
Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах.
- #4873Это какая-то очень интересная история, если я правильно её понял. Авторы…
Это какая-то очень интересная история, если я правильно её понял. Авторы LLM-JEPA подумали-подумали и предложили лосс для обычной архитектуры без всяких…