Когда в 2023-м все начали говорить про агентов, под этим чаще всего подразумевали цепочку промптов с фиксацией контекста, а про инфраструктуру, как правило, даже не задумывались. Сейчас кто-то по-прежнему считает, что агенты — это окошечки с LLM, а развернутая на единственной ноде модель — это подходящая инфраструктура для агентской системы. На самом деле это, конечно, не так. Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты. В последнем обновлении Yandex AI Studio интересен не столько факт, что появилась модель DeepSeek V3.2, сколько то, как под нее оптимизировали инференс. Модель работает в режиме prefill/decode, где prefill-ноды оптимизированы под быстрый прогон длинных контекстов, а decode-ноды — под устойчивую генерацию с низким и стабильным показателем Time Between Tokens. Чтобы это работало, пришлось научиться передавать KV-кэши между серверами в реальном времени, а это гигабайты данных. Дальше — больше. Введена иерархия кэшей (GPU → CPU → распрелеленный слой), а балансировщик теперь «знает», где уже хранятся закешированные фрагменты контекста, и отправляет запрос туда, где cache hit rate будет выше. Поверх этого слоя появились приватные эндпоинты и правила модерации ответов моделей, что особенно актуально при работе с опенсорс моделями в корпоративном контуре. Добавили и новый подход к тарификации: появились токены инструментов и токены кеширования. Первые участвуют при вызове встроенных инструментов (File Search, Web Search, MCP), вторые — при повторном использовании уже обработанных фрагментов запроса. Всё это стоит в четыре раза дешевле обычных токенов и делает длинные агентские сценарии экономически осмысленными. Возможно, именно здесь и начинается взрослая эпоха для агентных систем — не промпт-цепочки, а полноценные цифровые организмы, у которых есть память, тело и дисциплина.