Если дать агентам свободу - они могут лениться Про такое сейчас можно часто услышать. У кого-то они закомментируют тесты, чтобы получить 100% pass rate, у кого-то выпилят нужную фичу или просто поправят код проверки. Это хорошо видно даже в результатах прогонов ECOM1-DEV на BitGN арене для AI агентов. Некоторые агенты просто зазубривают правильные подходы к задачкам. Поэтому я добавил пару ловушек от зазубривания. Если ваш агент начал внезапно спотыкаться на задачах t09-t12 или на новых t41, t42, то значит он просто когда-то вызубрил правильные подходы. А что нового в самих задачах? Да просто кусочек той каши, которая встречается в реальных бизнес-системах. Когда есть документы с правилами, но потом люди начинают городить апдейты и уточнения в новых документах. Но при этом вся система все ещё непротиворечивая - тестовый Codex агент проходит все новые задачи без проблем. И у него точно нет памяти прошлых запусков. Ваш, @llm_under_hood 🤗