Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к модулируемому предсказанию латентных концептов, авторы опираются на когнитивную теорию ACT-R (Adaptive Control of Thought-Rational). Они квантуют непрерывный спектр рассуждений на четыре дискретные иерархические атомарные единицы когнитивной глубины, обозначая их как множество L = {L_1, L_2, L_3, L_4}. Самый низкий уровень, L_1 (Инстинктивная реакция), обходит явную рабочую память и выдаёт немедленные рефлекторные действия. Поднимаясь по иерархии, L_2 (Ситуационная осведомлённость) заставляет модель оценить текущее состояние и проанализировать доступные действия перед выполнением. L_3 (Интеграция опыта) действует как этап компиляции знаний, подталкивая модель к явной рефлексии над прошлыми ошибками и контекстом исторической траектории. Наконец, L_4 (Стратегическое планирование) представляет собой самое глубокое состояние латентных вычислений, требующее перспективной симуляции, где агент оценивает несколько кандидатов на действие и их долгосрочные последствия. Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents __Ruihan Yang, Fanghua Ye, Xiang Wei, Ruoqing Zhao, Kang Luo, Xinbo Xu, Bo Zhao, Ruotian Ma, Shanyi Wang, Zhaopeng Tu, Xiaolong Li, Deqing Yang, Linus__ Статья: https://arxiv.org/abs/2602.12662 Код: https://github.com/rhyang2021/CogRouter Ревью: https://arxiviq.substack.com/p/think-fast-and-slow-step-level-cognitive # TL;DR ЧТО сделали: Исследователи из Фуданьского университета и Tencent Hunyuan представили CogRouter — фреймворк для динамической модуляции когнитивной глубины LLM-агента на каждом отдельном шаге при решении длинных задач. Опираясь на когнитивную теорию ACT-R, система задаёт четыре иерархических уровня рассуждений. Обучение идёт в два этапа: сначала Cognition-aware Supervised Fine-tuning (CoSFT) для сбалансированной инициализации, а затем Cognition-Aware Policy Optimization (CoPO) — новый алгоритм RL, который решает проблему распределения награды (credit assignment) на уровне отдельных шагов с помощью перевзвешивания advantage на основе уверенности модели. ПОЧЕМУ это важно: В контексте современного масштабирования вычислений на инференсе (test-time compute) рассуждающие модели страдают от серьёзной когнитивной жёсткости: они либо работают как чисто реактивные политики, либо применяют тяжеловесные цепочки рассуждений абсолютно ко всему. CogRouter даёт математически обоснованный механизм аллокации вычислений строго туда, где они нужны. Предотвращая коллапс мод, типичный для методов RL на уровне целых траекторий, этот подход позволяет модели на 7B параметров обходить GPT-4o и OpenAI-o3 в агентных средах, радикально снижая расход токенов на 62% по сравнению со стандартными бейзлайнами. Думать тут: https://t.me/gonzo_ML_podcasts/2501
Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к…
Из этого канала
- #4826Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to…
Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to train your latents Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans…
- #4831Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к…
Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура,…
- #4835"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из…
"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из Гугла ~~переоткрывают Universal Transformer~~ определяют для каких токенов…
- #4817Ещё из интересного. Подоспел новый график от METR про длительность задач,…
Ещё из интересного. Подоспел новый график от METR про длительность задач, которые могут выполнять агенты.
- #4816Интересное свежее интервью с Борисом Чёрным, создателем Claude Code…
Интересное свежее интервью с Борисом Чёрным, создателем Claude Code https://www.youtube.com/watch?v=We7BZVKbCVw Про то, что он о конца прошлого года не написал…