Новости и статистика про ERC3 Во-первых, по голосованию видно, что большинство за перенос даты соревнования на начало декабря. Зарегистрировалось уже 423 команд, складывается, такое ощущение, что все участники как раз проголосовали за перенос. Так и сделаем. Соревнование 9 декабря, ERC3 с тестовым набором задач будет в среду. Во-вторых, у нас в платформе уже записано 23 тысячи запусков агентов, которые занесли в систему 204 миллионов input tokens и 11 миллионов output tokens. Список последних агентов, которые получили 100 score на STORE бенчмарке можно увидеть тут. И тут уже не только тяжеловесы вроде gpt-5, но и локальные модели вроде qwen3-235b-a22b и Краткие результаты анализа. Базовый SGR NextStep агент из примера - это очень медленный, дорогой и слабый агент. Поэтому команды находят способы улучшить его. Если верить статистике, то отличие идеальных агентов (те, кто решил все задачи), в том, что обычно делают больше работы за шаг - они грузят больше контекста в LLM вызов и работают дольше. Возможно, тут еще идет оптимизация контекста и добавляются выделенные инструменты. При этом количество LLM вызовов у них примерно такое же, как и у агентов послабее. Для быстрых ответов некоторые команды используют Cerebras провайдера, который позволяет очень быстро гонять локальные модели. Самый точный агент - SGR Tool Calling Agent with Reasoning Phases (OpenAI Function Calling), заодно он и самый тяжелый - 1.3M tokens на сессию. SGR-гибриды попроще (SGR with combo tools, SGR Agent + code agent + Added data about API итп) используют меньше tokens (280–350k на сессию), но и качество немного менее стабильное, медиана - 87. NextStep JSON SGR Agent with Codex - неожиданная архитектура, которая потребляет 245k tokens на сессию и работает достаточно стабильно (есть не одна идеальная сессия в 100). Ваш, @llm_under_hood 🤗
Новости и статистика про ERC3 Во-первых, по голосованию видно, что большинство…
Из этого канала
- #697Бенчмарк LLM в ERC3: AI Agents Вот график лучших решений ERC3 в бенчмарке…
Бенчмарк LLM в ERC3: AI Agents Вот график лучших решений ERC3 в бенчмарке Store, где архитектуры ранжированы по стоимости запуска и времени исполнения.
- #698Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к…
Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке (1) Если при отправке решения не была прислана телеметрия вызовов…
- #699Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK…
Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK тоже все есть - см.
- #694Я добавил на ERC3 платформу живой leaderboard с последними лучшими результатами…
Я добавил на ERC3 платформу живой leaderboard с последними лучшими результатами бенчмарков.
- #693Первые инсайты с ERC3 про построение AI Агентов Соревнование у нас еще не…
Первые инсайты с ERC3 про построение AI Агентов Соревнование у нас еще не запущено, а инсайты уже идут! Это потому, что наше с вами коммьюнити просто офигенно.