"Развитие темы про Large Concept Model (LCM) и Byte Latent Transformer (BLT), в… — @gonzo_ML

"Развитие темы про Large Concept Model (LCM) и Byte Latent Transformer (BLT), в каком-то смысле микс обеих. В LCM уходили в работу с концептами предложений через предобученные SONAR энкодер и декодер, в BLT динамически объединяли символы в латентные токены/патчи на основе энтропии через отдельную модель. Здесь по сути BLT без отдельной модели и end-to-end, определяющий границы концептов/патчей через косинусное несходство между проекциями соседних токенов. Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space __Xingwei Qu, Shaowen Wang, Zihao Huang, Ge Zhang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Wenhao Huang__ Статья: https://arxiv.org/abs/2512.24617 Ревью: https://arxiviq.substack.com/p/dynamic-large-concept-models-latent # TL;DR ЧТО сделали: Представили архитектуру Dynamic Large Concept Models (DLCM). Она ломает привычную парадигму равномерных вычислений LLM, где каждый токен обрабатывается с одинаковой глубиной. Вместо этого DLCM динамически группирует токены в ""концепты"" переменной длины на основе выученных семантических границ. Эти концепты обрабатываются мощным ""думающим"" бэкбоном в сжатом латентном пространстве, а затем декодируются обратно в токены. ПОЧЕМУ это важно: Это структурный сдвиг от предсказания следующего токена к ""рассуждению следующим концептом"". Отвязав гранулярность вычислений от количества поверхностных токенов, модель лучше справляется с задачами на рассуждение (вроде ARC и PIQA) при тех же затратах FLOPs на инференс. Вдобавок авторы предложили Decoupled µP и scaling law с учётом сжатия для стабилизации обучения таких гетерогенных архитектур. Подробнее: https://t.me/gonzo_ML_podcasts/1941"

Из этого канала