Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к… — @gonzo_ML

Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к модулируемому предсказанию латентных концептов, авторы опираются на когнитивную теорию ACT-R (Adaptive Control of Thought-Rational). Они квантуют непрерывный спектр рассуждений на четыре дискретные иерархические атомарные единицы когнитивной глубины, обозначая их как множество L = {L_1, L_2, L_3, L_4}. Самый низкий уровень, L_1 (Инстинктивная реакция), обходит явную рабочую память и выдаёт немедленные рефлекторные действия. Поднимаясь по иерархии, L_2 (Ситуационная осведомлённость) заставляет модель оценить текущее состояние и проанализировать доступные действия перед выполнением. L_3 (Интеграция опыта) действует как этап компиляции знаний, подталкивая модель к явной рефлексии над прошлыми ошибками и контекстом исторической траектории. Наконец, L_4 (Стратегическое планирование) представляет собой самое глубокое состояние латентных вычислений, требующее перспективной симуляции, где агент оценивает несколько кандидатов на действие и их долгосрочные последствия. Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents __Ruihan Yang, Fanghua Ye, Xiang Wei, Ruoqing Zhao, Kang Luo, Xinbo Xu, Bo Zhao, Ruotian Ma, Shanyi Wang, Zhaopeng Tu, Xiaolong Li, Deqing Yang, Linus__ Статья: https://arxiv.org/abs/2602.12662 Код: https://github.com/rhyang2021/CogRouter Ревью: https://arxiviq.substack.com/p/think-fast-and-slow-step-level-cognitive # TL;DR ЧТО сделали: Исследователи из Фуданьского университета и Tencent Hunyuan представили CogRouter — фреймворк для динамической модуляции когнитивной глубины LLM-агента на каждом отдельном шаге при решении длинных задач. Опираясь на когнитивную теорию ACT-R, система задаёт четыре иерархических уровня рассуждений. Обучение идёт в два этапа: сначала Cognition-aware Supervised Fine-tuning (CoSFT) для сбалансированной инициализации, а затем Cognition-Aware Policy Optimization (CoPO) — новый алгоритм RL, который решает проблему распределения награды (credit assignment) на уровне отдельных шагов с помощью перевзвешивания advantage на основе уверенности модели. ПОЧЕМУ это важно: В контексте современного масштабирования вычислений на инференсе (test-time compute) рассуждающие модели страдают от серьёзной когнитивной жёсткости: они либо работают как чисто реактивные политики, либо применяют тяжеловесные цепочки рассуждений абсолютно ко всему. CogRouter даёт математически обоснованный механизм аллокации вычислений строго туда, где они нужны. Предотвращая коллапс мод, типичный для методов RL на уровне целых траекторий, этот подход позволяет модели на 7B параметров обходить GPT-4o и OpenAI-o3 в агентных средах, радикально снижая расход токенов на 62% по сравнению со стандартными бейзлайнами. Думать тут: https://t.me/gonzo_ML_podcasts/2501

Из этого канала