Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и… — @gonzo_ML

Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент. Agentic Systems as Boosting Weak Reasoning Models __Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti__ Paper: https://arxiv.org/abs/2605.14163 Review: https://arxiviq.substack.com/p/agentic-systems-as-boosting-weak Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили теоретический фреймворк, который формализует агентный поиск комитетом (committee search) как бустинг во время инференса (test-time boosting). Разделив задачу на отдельные компоненты — покрытие генератора (proposal coverage), локальную идентифицируемость (local identifiability), глубину прогресса (progress depth) и разнообразие (diversity), — они показали, что легковесную модель (GPT-5.4 nano) под управлением структурированной обвязки из критиков и компараторов можно заставить работать на уровне лучших коммерческих SOTA-моделей на бенчмарках по разработке ПО. ПОЧЕМУ это важно: Эта работа смещает фокус масштабирования LLM с гигантского увеличения параметров моделей на программно-определяемые архитектуры инференса. Авторы математически доказывают, что способность генерировать решения не означает способность их валидировать. Таким образом, предел масштабирования во время инференса ограничен «слепыми зонами» базовой модели-генератора, а не неэффективностью выбора. Для практиков: Вместо того чтобы тратить миллионы на файнтюнинг огромных моделей, можно использовать ансамбли из дешёвых и быстрых моделей-генераторов, обёрнутых в строгие каскады критиков и попарных компараторов. Главное — убедиться, что у базовой модели в принципе есть ненулевая вероятность сгенерировать правильный ответ (хотя бы в одном из `k` сэмплов), и предоставить системе надёжные внешние сигналы валидации (тесты, линтеры). Ансамблировать и оркестрировать тут: https://t.me/gonzo_ML_podcasts/3739

Из этого канала