Если дать агентам свободу - они могут лениться Про такое сейчас можно часто услышать. У кого-то они закомментируют тесты, чтобы получить 100% pass rate, у кого-то выпилят нужную фичу или просто поправят код проверки. Это хорошо видно даже в результатах прогонов ECOM1-DEV на BitGN арене для AI агентов. Некоторые агенты просто зазубривают правильные подходы к задачкам. Поэтому я добавил пару ловушек от зазубривания. Если ваш агент начал внезапно спотыкаться на задачах t09-t12 или на новых t41, t42, то значит он просто когда-то вызубрил правильные подходы. А что нового в самих задачах? Да просто кусочек той каши, которая встречается в реальных бизнес-системах. Когда есть документы с правилами, но потом люди начинают городить апдейты и уточнения в новых документах. Но при этом вся система все ещё непротиворечивая - тестовый Codex агент проходит все новые задачи без проблем. И у него точно нет памяти прошлых запусков. Ваш, @llm_under_hood 🤗
Если дать агентам свободу - они могут лениться Про такое сейчас можно часто…
Из этого канала
- #841"Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и…
"Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и AI-обертки; - маркетинг обещает пользователю все больше магии (сейлзы теперь…
- #842ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k…
ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k завершенных агентских прогонов и четверть миллиона попыток решения задач, нагрузка идет…
- #843BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в…
BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в лидербордах публикуется полное время, которое потребовалось агенту для прохождения…
- #839Я поднял потолок ECOM1-DEV до 40, теперь и с мошенничеством! В тестовой BitGN…
Я поднял потолок ECOM1-DEV до 40, теперь и с мошенничеством! В тестовой BitGN арене для AI агентов (BitGN ECOM1-DEV) добавилось 9 новых задач.
- #838"Codex Desktop / CLI поддерживает режим ""копать отсюда до обеда"" Для этого…
"Codex Desktop / CLI поддерживает режим ""копать отсюда до обеда"" Для этого нужно в `~/.codex/config.toml` включить такой флаг: ``` [features] goals = true…