Когда в 2023-м все начали говорить про агентов, под этим чаще всего подразумевали цепочку промптов с фиксацией контекста, а про инфраструктуру, как правило, даже не задумывались. Сейчас кто-то по-прежнему считает, что агенты — это окошечки с LLM, а развернутая на единственной ноде модель — это подходящая инфраструктура для агентской системы. На самом деле это, конечно, не так. Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты. В последнем обновлении Yandex AI Studio интересен не столько факт, что появилась модель DeepSeek V3.2, сколько то, как под нее оптимизировали инференс. Модель работает в режиме prefill/decode, где prefill-ноды оптимизированы под быстрый прогон длинных контекстов, а decode-ноды — под устойчивую генерацию с низким и стабильным показателем Time Between Tokens. Чтобы это работало, пришлось научиться передавать KV-кэши между серверами в реальном времени, а это гигабайты данных. Дальше — больше. Введена иерархия кэшей (GPU → CPU → распрелеленный слой), а балансировщик теперь «знает», где уже хранятся закешированные фрагменты контекста, и отправляет запрос туда, где cache hit rate будет выше. Поверх этого слоя появились приватные эндпоинты и правила модерации ответов моделей, что особенно актуально при работе с опенсорс моделями в корпоративном контуре. Добавили и новый подход к тарификации: появились токены инструментов и токены кеширования. Первые участвуют при вызове встроенных инструментов (File Search, Web Search, MCP), вторые — при повторном использовании уже обработанных фрагментов запроса. Всё это стоит в четыре раза дешевле обычных токенов и делает длинные агентские сценарии экономически осмысленными. Возможно, именно здесь и начинается взрослая эпоха для агентных систем — не промпт-цепочки, а полноценные цифровые организмы, у которых есть память, тело и дисциплина.
Когда в 2023-м все начали говорить про агентов, под этим чаще всего…
Из этого канала
- #8826⚡️ Встречаем GPT‑5.4 Модель вышла в версиях Thinking и Pro. Метрики подросли на…
⚡️ Встречаем GPT‑5.4 Модель вышла в версиях Thinking и Pro. Метрики подросли на кодинге (немного), на математике (прилично) и на computer use.
- #8827Google предложили, как обучать LLM становиться умнее по ходу диалога Есть…
Google предложили, как обучать LLM становиться умнее по ходу диалога Есть довольно известная проблема: LLM плохо обновляют убеждения по мере получения новой…
- #8830Cursor теперь может мониторить вашу кодовую базу автономно и постоянно Теперь…
Cursor теперь может мониторить вашу кодовую базу автономно и постоянно Теперь там есть возможность настроить ИИ‑агентов, которые автоматически выполняют задачи…
- #8824OpenAI выпустили Symphony – опенсорсный оркестратор для агентов…
OpenAI выпустили Symphony – опенсорсный оркестратор для агентов https://github.com/openai/symphony По сути, это фреймворк для автономной работы над задачами.
- #8823Сбер продолжает линию опенсорса — выложили код и веса Green-VLA Немного…
Сбер продолжает линию опенсорса — выложили код и веса Green-VLA Немного контекста: в начале февраля техрепорт по Green-VLA стал лучшей работой недели на…