Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент. Agentic Systems as Boosting Weak Reasoning Models __Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti__ Paper: https://arxiv.org/abs/2605.14163 Review: https://arxiviq.substack.com/p/agentic-systems-as-boosting-weak Code: N/A Model: N/A # TL;DR ЧТО сделали: Авторы представили теоретический фреймворк, который формализует агентный поиск комитетом (committee search) как бустинг во время инференса (test-time boosting). Разделив задачу на отдельные компоненты — покрытие генератора (proposal coverage), локальную идентифицируемость (local identifiability), глубину прогресса (progress depth) и разнообразие (diversity), — они показали, что легковесную модель (GPT-5.4 nano) под управлением структурированной обвязки из критиков и компараторов можно заставить работать на уровне лучших коммерческих SOTA-моделей на бенчмарках по разработке ПО. ПОЧЕМУ это важно: Эта работа смещает фокус масштабирования LLM с гигантского увеличения параметров моделей на программно-определяемые архитектуры инференса. Авторы математически доказывают, что способность генерировать решения не означает способность их валидировать. Таким образом, предел масштабирования во время инференса ограничен «слепыми зонами» базовой модели-генератора, а не неэффективностью выбора. Для практиков: Вместо того чтобы тратить миллионы на файнтюнинг огромных моделей, можно использовать ансамбли из дешёвых и быстрых моделей-генераторов, обёрнутых в строгие каскады критиков и попарных компараторов. Главное — убедиться, что у базовой модели в принципе есть ненулевая вероятность сгенерировать правильный ответ (хотя бы в одном из `k` сэмплов), и предоставить системе надёжные внешние сигналы валидации (тесты, линтеры). Ансамблировать и оркестрировать тут: https://t.me/gonzo_ML_podcasts/3739
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и…
Из этого канала
- #5428Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.…
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali…
- #5435"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels:…
"Нейросеть как зашумлённый канал передачи информации. LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws Xu Ouyang, Deyi Liu,…
- #5440Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee,…
Спать хорошо. А высыпаться ещё лучше. Language Models Need Sleep Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti Paper: https://arxiv.org/abs/2605.26099…
- #5420Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то,…
Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
- #5415Красивая история. UT с последовательным применением линейного внимания…
Красивая история. UT с последовательным применением линейного внимания увеличивает выразительность трансформера, одновременно сохраняя разумную вычислительную…