"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из Гугла ~~переоткрывают Universal Transformer~~ определяют для каких токенов внутренние репрезентации устаканиваются быстро, а для каких меняются вплоть до финальных слоёв. Если в генерации доля таких глубоких токенов больше, то и генерация считается ""глубже"". Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens __Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng__ Статья: https://arxiv.org/abs/2602.13517 Ревью: https://arxiviq.substack.com/p/think-deep-not-just-long-measuring # TL;DR ЧТО сделали: Авторы предлагают метрику Deep-Thinking Ratio (DTR) — механистически обоснованный способ количественно оценить усилия модели на инференсе. Отслеживая послойное распределение вероятностей промежуточных скрытых состояний, DTR выделяет «глубоко продуманные токены» (deep-thinking tokens). Это токены, чьё распределение вероятностей претерпевает длительные изменения по мере прохождения через слои и стабилизируется только в самых последних слоях трансформера. Также исследователи разработали стратегию Think@n, которая умно распределяет вычисления на инференсе, опираясь на DTR коротких сгенерированных префиксов. ПОЧЕМУ это важно: Работа решает проблему нарушения эвристики «чем длиннее, тем лучше» при масштабировании вычислений на инференсе. Опора исключительно на количество сгенерированных токенов часто непреднамеренно поощряет чрезмерное обдумывание (overthinking), генерируя многословную чепуху и увеличивая число ошибок. Авторы показывают, что внутренняя стабилизация латентных представлений предсказывает точность рассуждений гораздо лучше, чем длина последовательности или уверенность модели на выходе. Этот фреймворк позволяет на ранних этапах отсекать тупиковые цепочки рассуждений, достигая качества полновесного self-consistency за половину вычислительной стоимости. Глубже тут: https://t.me/gonzo_ML_podcasts/2540"
"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из…
Из этого канала
- #4838Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с…
Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые…
- #4841Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris…
Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex…
- #4845Субботнее. Терминатор, погоди!…
Субботнее. Терминатор, погоди! https://superflix.ai/video/0f16ca59-3e0e-4192-985a-a5a25fc1a596
- #4831Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к…
Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура,…
- #4826Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to…
Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to train your latents Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans…