Разбор SOTA агента от Ильи Рис - победителя ERC3 Ну что, друзья как начался ваш… — @ai_driven

Разбор SOTA агента от Ильи Рис - победителя ERC3 Ну что, друзья как начался ваш год? Надеюсь, что хорошо и что вы отдыхаете! Пока все отдыхают, мы с Ильей собрались и записали бомбическое интервью об архитектуре его AI-агента, который недавно взял первое место в соревновании ERC-3 Рината Абдуллина среди агентов на базе опенсорс моделей. В итоге получился великолепный материал по Context Engineering в мультиагентных системах. Поэтому хочется отдельно сказать спасибо Илье за такую открытость. Напомню, кстати, что статья Ильи про архитектуру его RAG системы, наверное, является наиболее залайканым материалом по RAG на Хабре за все время (+161!). Мне было особенно интересно разобрать именно решение Ильи, т. к. мне часто приходится общаться с энтерпрайзами и банками, а они очень уж любят открытые модели и почти не используют проприетарные. В общем, без лишних слов - тот редкий случай, когда множество инсайтов обеспечены даже матерым агентоводам. Запись интервью-разбора: https://youtu.be/3JYHMMw5WSU Таймкоды: 00:00:02 Вступление. Илья Rice и его победа в бенчмарке агентов ERC-3 00:06:03 Что из себя представляет соревнование ERC-3: симуляция энтерпрайз среды 00:13:39 Open Source решение и инструмент визуализации трейсов 00:18:07 Архитектура решения: определение пользователя (WhoAmI) и прав доступа 00:24:14 Динамический системный промпт: как не засорять контекст 00:38:06 Хак с пагинацией: Wrapper для API инструментов 00:41:14 Структура ответа агента: State, Plan, Action, Function 00:44:02 Почему отказались от нативного Tool Calling в пользу Structured Output 00:51:13 Стоит ли верить публичным бенчмаркам? 00:55:45 Разбор реального кейса: задача по смене статуса проекта 01:03:30 Почему не использовали классический RAG 01:05:58 Динамическая подгрузка инструкций для инструментов 01:11:14 Валидатор (The Validator): отдельная LLM для проверки действий агента 01:21:43 Работа с контекстом: работа с ошибками агента 01:33:20 Техника Sliding Window: обрезка истории для экономии внимания модели 01:36:05 Store Benchmark: Оркестратор и специализированные субагенты 01:44:26 Выбор моделей: почему Open Source 01:45:41 Заключение Исходный код агента Ильи: https://github.com/IlyaRice/Enterprise-RAG-Challenge-3-AI-Agents Трейсы агента: https://ilyarice.github.io/Enterprise-RAG-Challenge-3-AI-Agents/ Чат с исходным кодом агента в CodeAlive: https://app.codealive.ai/public/chat/3geNycM--lLbA3vxL272vA P. S. А уже в этот вторник 6-го января в 12:00 по Лондону, 13:00 по CET, 15:00 по МСК и 17:00 по Алматы состоится встреча с Ибрагимом - автором SWE-бенчмарка SWE-rebench и автором тг-канала @c0mmit. Добавляйте событие в календарь, чтобы не пропустить.

Из этого канала