Важная тема на живом примере. Переход от прототипа к продакшн-агенту… — @gonzo_ML

Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте. Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). __*Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет. __ Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза. Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде. Нам эту пропасть ещё преодолевать. A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows __Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan__ Статья: https://arxiv.org/abs/2512.08769 Код: https://gitlab.com/rahasak-labs/podcast-workflow Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing # TL;DR ЧТО сделали: Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM. ПОЧЕМУ это важно: Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер. Подробнее: https://t.me/gonzo_ML_podcasts/1811

Из этого канала