"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из Гугла ~~переоткрывают Universal Transformer~~ определяют для каких токенов внутренние репрезентации устаканиваются быстро, а для каких меняются вплоть до финальных слоёв. Если в генерации доля таких глубоких токенов больше, то и генерация считается ""глубже"". Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens __Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng__ Статья: https://arxiv.org/abs/2602.13517 Ревью: https://arxiviq.substack.com/p/think-deep-not-just-long-measuring # TL;DR ЧТО сделали: Авторы предлагают метрику Deep-Thinking Ratio (DTR) — механистически обоснованный способ количественно оценить усилия модели на инференсе. Отслеживая послойное распределение вероятностей промежуточных скрытых состояний, DTR выделяет «глубоко продуманные токены» (deep-thinking tokens). Это токены, чьё распределение вероятностей претерпевает длительные изменения по мере прохождения через слои и стабилизируется только в самых последних слоях трансформера. Также исследователи разработали стратегию Think@n, которая умно распределяет вычисления на инференсе, опираясь на DTR коротких сгенерированных префиксов. ПОЧЕМУ это важно: Работа решает проблему нарушения эвристики «чем длиннее, тем лучше» при масштабировании вычислений на инференсе. Опора исключительно на количество сгенерированных токенов часто непреднамеренно поощряет чрезмерное обдумывание (overthinking), генерируя многословную чепуху и увеличивая число ошибок. Авторы показывают, что внутренняя стабилизация латентных представлений предсказывает точность рассуждений гораздо лучше, чем длина последовательности или уверенность модели на выходе. Этот фреймворк позволяет на ранних этапах отсекать тупиковые цепочки рассуждений, достигая качества полновесного self-consistency за половину вычислительной стоимости. Глубже тут: https://t.me/gonzo_ML_podcasts/2540"