"Последние пару дней изучал статью Hang Li «General Framework of AI Agents» —… — @cdo_club

"Последние пару дней изучал статью Hang Li «General Framework of AI Agents» — настолько заинтриговало название. И хотя статья оказалась немного не про то, что я ожидал из названия, она хорошо ложится на то, что мы все сейчас наблюдаем в продуктовой реальности: «агенты» — это не магия, а довольно конкретная инженерная архитектура вокруг LLM. Если сильно упростить, то LLM — это предиктор следующего токена: на входе контекст, на выходе “наиболее вероятный следующий кусок”, и так по кругу, пока не сработает критерий остановки. Эта штука оказалась крайне полезной, но она дорогая, медленная и по определению ограничена: сама по себе она живёт в коротком контексте и не умеет надёжно делать то, что требует строгих процедур — поиск, вычисления, исполнение кода, формальная верификация и т.п. И вот здесь важный момент: большинство «интересных» возможностей современных ИИ-систем рождаются не столько из самой LLM, сколько из того, что её окружает. То есть из ""обёртки"". Я для себя делю её на два слоя: - Обёртка #1 (от создателей модели). Это то, что превращает “говорящую голову” в систему, которая действует: добавляет инструменты, память, мультимодальность, циклы планирования/проверки/рефлексии, и иногда — обучение через reinforcement learning. В статье это описано как общий каркас: MLLM (мультимодальная LLM как “ядро”), инструменты (tools), память (working + long-term), мультимодальный энкодер/декодер и (для роботов) action decoder, который превращает высокоуровневый план в траектории/действия. То есть “агент” в их определении — это task-oriented система, которая на вход/выход принимает текст и мультимодальные данные, опирается на LLM как на блок “мышления”, и расширяет возможности через tools+memory. - Обёртка #2 (от прикладных разработчиков). Это уже продуктовый слой: интерфейсы, коннекторы, RAG, пайплайны данных, имитация «обучения на пользователе», политики доступа, скорость, UX, интеграции с бизнес-процессами. Именно этот слой чаще всего и создаёт “агента с большой буквы” в глазах пользователя — потому что пользователь оценивает не качество next-token prediction, а то, решается ли его задача end-to-end. Почему “размышления” выглядят как мышление Отдельно мне нравится мысль: значительная часть того, что мы называем “reasoning” в агентных системах, — это инженерно организованный пинг‑понг между LLM и внешним миром. Паттерны вроде ReAct/Reflexion/LATS — это по сути способы оркестрации: заставить модель чередовать рассуждения и действия, хранить результат, критиковать себя, ветвить варианты и выбирать лучший путь в рамках бюджета. Статья прямо относит такие фреймворки (AutoGPT, LangChain, ReAct, Reflexion, LATS, Toolformer и т.д.) к частным случаям одного общего каркаса. Две системы мышления и где тут LLM Если притянуть аналогию к человеку: нам нужна быстрая “интуитивная” система и более медленная “логическая” система. Авторы статьи, обсуждая мозг, опираются и на embodied cognition (мышление порождает «образы»), и на computational theory of mind (мышление как “ментальный язык”), и принимают, что в реальности могут сосуществовать оба механизма. LLM же по ощущению ближе к “интуитивному” выводу: она очень сильна в ассоциативном/аналоговом обобщении, но строгую логику и математику надёжнее отдавать инструментам — отсюда важность нейро‑символьного подхода (neural + symbolic processing), где LLM отвечает за смысл и управление, а инструменты — за строгость."

Из этого канала