Помните, когда-то давно я рассказывал про историю разработки своего reasoning агента, который мог разгрызать сложные compliance документы? И тогда это казалось какими-то космическими технологиями. Особенно удивляло, что логические цепочки настолько стабильные, что выдерживают запуск и на локальных моделях. Это больше не дальний космос, а вполне себе освоенное пространство в нашем коммьюнити! Просто посмотрите на топовые результаты из лидерборда (я загрузил туда новых описаний архитектур от команд - жмем на треугольник, чтобы увидеть детали). Во-первых, 5 из 10 агентов в топе способны работать долго самостоятельно (от 1 до 7 минут на задачу) и при этом не сойти с ума. Свой работающий Deep Research у каждого второго! Во-вторых, архитектура Ильи Риса на втором месте использует под капотом gpt-oss-120B, которую можно запускать на своих серверах. Облачные модели уже не являются единственным способом получить хорошого агента - теперь мы упираемся в архитектуры. В-третих, просто полистайте зоопарк архитектур и моделей. Чего там только нет. Начиная от быстрых и локальных агентов на базе qwen3-235b-a22b-2507 и до экзотической само-модифицирующейся системы на базе claude-opus-4.5. Команды на их базе строят разные решения, от точных и дорогих, до медленных и дешевых, до сбалансированных. Самое главное, что теперь не нужно жертвовать точностью для получения бюджетных решений. Но при этом агенты, которые оптимизируются на быстрые ответы - это отдельная песня, со своими архитектурными нюансами. В-четвертых, примечательно, что SGR NextStep архитектура (которая родилась в той reasoning истории) теперь довольно часто упоминается в качестве базовой. В лидербордах представлены агенты начиная с легких модификаций с дополнительными инструментами и до сильно измененной реализации на втором месте. Но одного наличия SGR не достаточно для победы, имеет значение то, чем ее дополняют. Да и первое место вообще без нее обошлось. В-пятых, более точные решения обычно явно прописывают в архитектурах упор на простоту и прозрачность, отдельную логику на валидацию и работу с правилами. Демо агенты показывали подход с rule distillation и preflight checks, но команды с точными агентами развили эту тему гораздо глубже. В общем, если кратко собрать выводы про построение самого точного и внедряемого в бизнес агента, то нужно делать упор на: deterministic control flow + distilled rules + automated validation + iterative self-improvement, где LLM-ка - это не центральный движок, а просто заменяемый планировщик и преобразователь информации. Ваш, @llm_under_hood 🤗
Помните, когда-то давно я рассказывал про историю разработки своего reasoning…
Из этого канала
- #720Вот мне тут после ERC3 пишут: - Я хочу схантить к себе человека из топов. - Я…
Вот мне тут после ERC3 пишут: - Я хочу схантить к себе человека из топов. - Я засветился в топах ERC3 и ищу интересные проекты Давайте структурируем и ускорим…
- #721Обновление нашей платформы тестирования AI агентов - видно больше разных…
Обновление нашей платформы тестирования AI агентов - видно больше разных архитектур (1) В live leaderboards теперь показывается одно лучшее решение на аккаунт…
- #722Да, мы сделали это! Более 600 баксов спущено на erc3-prod. Почти треть тулов…
Да, мы сделали это! Более 600 баксов спущено на erc3-prod. Почти треть тулов переписано за вчера и сегодня.
- #718Вы круты! Закончилась основная часть соревнования, где разные команды со всего…
Вы круты! Закончилась основная часть соревнования, где разные команды со всего мира вслепую решали сложные задачи корпоративной автоматизации при помощи AI: -…
- #717Финал ERC3! URL Updated! Стрим будет тут через час. Запись останется. Подведем…
Финал ERC3! URL Updated! Стрим будет тут через час. Запись останется. Подведем итоги и поговорим про архитектуры победителей, агенты которых которых смогли…