Новости и статистика про ERC3 Во-первых, по голосованию видно, что большинство… — @llm_under_hood

Новости и статистика про ERC3 Во-первых, по голосованию видно, что большинство за перенос даты соревнования на начало декабря. Зарегистрировалось уже 423 команд, складывается, такое ощущение, что все участники как раз проголосовали за перенос. Так и сделаем. Соревнование 9 декабря, ERC3 с тестовым набором задач будет в среду. Во-вторых, у нас в платформе уже записано 23 тысячи запусков агентов, которые занесли в систему 204 миллионов input tokens и 11 миллионов output tokens. Список последних агентов, которые получили 100 score на STORE бенчмарке можно увидеть тут. И тут уже не только тяжеловесы вроде gpt-5, но и локальные модели вроде qwen3-235b-a22b и Краткие результаты анализа. Базовый SGR NextStep агент из примера - это очень медленный, дорогой и слабый агент. Поэтому команды находят способы улучшить его. Если верить статистике, то отличие идеальных агентов (те, кто решил все задачи), в том, что обычно делают больше работы за шаг - они грузят больше контекста в LLM вызов и работают дольше. Возможно, тут еще идет оптимизация контекста и добавляются выделенные инструменты. При этом количество LLM вызовов у них примерно такое же, как и у агентов послабее. Для быстрых ответов некоторые команды используют Cerebras провайдера, который позволяет очень быстро гонять локальные модели. Самый точный агент - SGR Tool Calling Agent with Reasoning Phases (OpenAI Function Calling), заодно он и самый тяжелый - 1.3M tokens на сессию. SGR-гибриды попроще (SGR with combo tools, SGR Agent + code agent + Added data about API итп) используют меньше tokens (280–350k на сессию), но и качество немного менее стабильное, медиана - 87. NextStep JSON SGR Agent with Codex - неожиданная архитектура, которая потребляет 245k tokens на сессию и работает достаточно стабильно (есть не одна идеальная сессия в 100). Ваш, @llm_under_hood 🤗

Из этого канала