Важная тема на живом примере. Переход от прототипа к продакшн-агенту нетривиален. Имхо это вообще одна из самих больших проблем области в моменте. Традиционный инжиниринг привык работать в терминах надёжности и часто оперирует уровнями нескольких девяток — три девятки (99.9%, 8.7 часов даунтайма в год) это минимальный стандарт, пять девяток (99.999%, 5 минут даунтайма) — стандарт для критических сервисов, некоторые экзотические вещи требуют и обеспечивают ещё более высокие стандарты (есть мифический легендарный Эриксоновский свитч AXD301 с софтом на Эрланге, обеспечивающий 9 девяток, 32 миллисекунды даунтайма в год). __*Здесь конечно отдельный вопрос, что именно считается, я тоже довольно вольно с этим обошёлся, смешав надёжность и доступность, но суть тезиса это не меняет. __ Так вот, в агентах в среднем надёжность не дотягивает и до одной девятки. Я бы сказал, что мы там на уровне семёрок или даже шестёрок. В сочетании с оверселлингом от некоторых игроков это особенно бросается в глаза. Побывав в этом году на каком-то заметном числе конференций, я хочу сказать, что процент фейлов агентских демонстраций запредельно высок, даже на уровне кейноутов. То агент войдёт в цикл смерти, не способный решить проблему перед ним; то сделает не то, что от него хотят; то просто упадёт вместе с сервером и запятисотит; ну и так далее. По ощущениям, фейлов не менее 30%. Конечно есть отдельные ниши, где всё детерминировано и хорошо, но такое счастье далеко не везде. Нам эту пропасть ещё преодолевать. A Practical Guide for Designing, Developing, and Deploying Production-Grade Agentic AI Workflows __Eranga Bandara, Ross Gore, Peter Foytik, Sachin Shetty, Ravi Mukkamala, Abdul Rahman, Xueping Liang, Safdar H. Bouka, Amin Hass, Sachini Rajapakse, Ng Wee Keong, Kasun De Zoysae, Aruna Withanage, Nilaan Loganathan__ Статья: https://arxiv.org/abs/2512.08769 Код: https://gitlab.com/rahasak-labs/podcast-workflow Ревью: https://arxiviq.substack.com/p/a-practical-guide-for-designing-developing # TL;DR ЧТО сделали: Авторы представили комплексный инженерный фреймворк для переноса агентных систем из экспериментальных ноутбуков в полноценные продакшен-среды на базе Kubernetes. На примере пайплайна «Новости в подкаст» они сформулировали девять паттернов проектирования (например, «Чистые функции вместо вызовов инструментов» и «Рассуждение через консорциум»), призванных нивелировать врождённый недетерминизм LLM. ПОЧЕМУ это важно: Пока индустрия пытается перейти от простых промптов к многошаговым агентным цепочкам, надёжность становится главным бутылочным горлышком. Эта статья даёт необходимый чертёж для AgentOps, показывая, как отделить рассуждения от исполнения и доказывая, что строгие принципы программной инженерии (вроде Single Responsibility Principle) становятся ещё важнее, когда наш вычислительный движок носит вероятностный характер. Подробнее: https://t.me/gonzo_ML_podcasts/1811
Важная тема на живом примере. Переход от прототипа к продакшн-агенту…
Из этого канала
- #4455"Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные…
"Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE.
- #4459Интересно как... Today, Groq announced that it has entered into a non-exclusive…
Интересно как... Today, Groq announced that it has entered into a non-exclusive licensing agreement with Nvidia for Groq’s inference technology.
- #4460"Невидимая рука рынка для AGI: Безопасность через экономику Distributional AGI…
"Невидимая рука рынка для AGI: Безопасность через экономику Distributional AGI Safety Nenad Tomašev, Matija Franklin, Julian Jacobs, Sébastien Krier, Simon…
- #4450https://z.ai/blog/glm-4.7 🔥
https://z.ai/blog/glm-4.7 🔥
- #4439Результат: бьют HRM и TRM на Sudoku, ARC-AGI-1 и ARC-AGI-2. В предыдущих…
Результат: бьют HRM и TRM на Sudoku, ARC-AGI-1 и ARC-AGI-2. В предыдущих работах ещё был Maze-Hard, здесь не сделали.