Любопытный (но дорогой) заход на стабильность мультишаговых воркфлоу с LLM :)… — @gonzo_ML

Любопытный (но дорогой) заход на стабильность мультишаговых воркфлоу с LLM :) Solving a Million-Step LLM Task with Zero Errors __Elliot Meyerson, Giuseppe Paolo, Roberto Dailey, Hormoz Shahrzad, Olivier Francon, Conor F. Hayes, Xin Qiu, Babak Hodjat, Risto Miikkulainen__ Статья: https://arxiv.org/abs/2511.09030 Ревью: https://arxiviq.substack.com/p/solving-a-million-step-llm-task-with Код: https://github.com/cognizant-ai-lab/neuro-san-benchmarking # TL;DR ЧТО сделали: Предложили фреймворк MAKER (Maximal Agentic decomposition, first-to-ahead-by-K Error correction, and Red-flagging), который позволяет решать задачи длиной более миллиона последовательных шагов LLM с нулевым количеством ошибок. Разбив задачу «Ханойская башня» на атомарные подзадачи (m=1) и применив специфический механизм голосования, авторы показали, что относительно небольшие модели (не являющиеся рассуждающими, reasoning models) могут достигать уровня надёжности, ранее считавшегося невозможным для стохастических генераторов. ПОЧЕМУ это важно: Работа бросает вызов догме, что для длинных задач нужны экспоненциально более умные модели. Вместо этого приводится доказательство существования Массивно декомпозированных агентных процессов (MDAP). Показано, что архитектурные изменения — в частности, экстремальная модульность и статистическая коррекция ошибок — позволяют стоимости расти лог-линейно (Θ(s ln s)), а не экспоненциально в зависимости от длины задачи. Подробнее: https://t.me/gonzo_ML_podcasts/1749

Из этого канала