Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к… — @gonzo_ML

Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура, которая за ней стоит. И дистилляция от моделей с разной структурой приводит к проблемам. The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning __Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan, Jiarui Guo, Minghao Liu, Jiaheng Liu, Tong Yang, Ge Zhang, Libo Qin, Wanxiang Che, Wenhao Huang__ Статья: https://arxiv.org/abs/2601.06002 Ревью: https://arxiviq.substack.com/p/the-molecular-structure-of-thought # TL;DR ЧТО сделали: Авторы предлагают теоретический фреймворк, моделирующий длинные цепочки рассуждений (Long CoT) как «молекулярную структуру». В этой парадигме шаги рассуждения выступают в роли узлов, а когнитивные переходы — в роли химических связей (глубокое рассуждение, саморефлексия, самоисследование). Исследователи показывают, что эффективное решение задач на рассуждение опирается на стабильное топологическое распределение этих связей, а не на поверхностную имитацию токенов. Для практического применения они разработали MOLE-SYN — метод переноса распределений, который направляет синтез структур Long CoT в более слабых моделях, что даёт существенный прирост качества и стабильности при обучении с подкреплением. ПОЧЕМУ это важно: Работа даёт механистическое объяснение тому, почему наивная дистилляция продвинутых рассуждающих моделей часто проваливается, и почему сжатие цепочек рассуждений защищает проприетарные модели от клонирования. В более широком смысле, статья сдвигает фокус исследований скрытых рассуждений с отслеживания узловых траекторий на моделирование связей (рёбер графа), предлагая математически обоснованный план для «холодного старта» моделей, масштабирующих вычисления на инференсе. Подробнее: https://t.me/gonzo_ML_podcasts/2529

Из этого канала