Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура, которая за ней стоит. И дистилляция от моделей с разной структурой приводит к проблемам. The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning __Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang__ Статья: https://arxiv.org/abs/2601.06002 Ревью: https://arxiviq.substack.com/p/the-molecular-structure-of-thought # TL;DR ЧТО сделали: Авторы предлагают теоретический фреймворк, моделирующий длинные цепочки рассуждений (Long CoT) как «молекулярную структуру». В этой парадигме шаги рассуждения выступают в роли узлов, а когнитивные переходы — в роли химических связей (глубокое рассуждение, саморефлексия, самоисследование). Исследователи показывают, что эффективное решение задач на рассуждение опирается на стабильное топологическое распределение этих связей, а не на поверхностную имитацию токенов. Для практического применения они разработали MOLE-SYN — метод переноса распределений, который направляет синтез структур Long CoT в более слабых моделях, что даёт существенный прирост качества и стабильности при обучении с подкреплением. ПОЧЕМУ это важно: Работа даёт механистическое объяснение тому, почему наивная дистилляция продвинутых рассуждающих моделей часто проваливается, и почему сжатие цепочек рассуждений защищает проприетарные модели от клонирования. В более широком смысле, статья сдвигает фокус исследований скрытых рассуждений с отслеживания узловых траекторий на моделирование связей (рёбер графа), предлагая математически обоснованный план для «холодного старта» моделей, масштабирующих вычисления на инференсе. Подробнее: https://t.me/gonzo_ML_podcasts/2529
Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к…
Из этого канала
- #4835"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из…
"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из Гугла ~~переоткрывают Universal Transformer~~ определяют для каких токенов…
- #4838Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с…
Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые…
- #4841Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris…
Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex…
- #4826Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to…
Новый подход к латентной диффузии от DeepMind'а. Unified Latents (UL): How to train your latents Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans…
- #4818Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к…
Надо думать, когда думать! Чтобы перейти от монолитных рассуждений к модулируемому предсказанию латентных концептов, авторы опираются на когнитивную теорию…