"Развитие темы про Large Concept Model (LCM) и Byte Latent Transformer (BLT), в каком-то смысле микс обеих. В LCM уходили в работу с концептами предложений через предобученные SONAR энкодер и декодер, в BLT динамически объединяли символы в латентные токены/патчи на основе энтропии через отдельную модель. Здесь по сути BLT без отдельной модели и end-to-end, определяющий границы концептов/патчей через косинусное несходство между проекциями соседних токенов. Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space __Xingwei Qu, Shaowen Wang, Zihao Huang, Ge Zhang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Wenhao Huang__ Статья: https://arxiv.org/abs/2512.24617 Ревью: https://arxiviq.substack.com/p/dynamic-large-concept-models-latent # TL;DR ЧТО сделали: Представили архитектуру Dynamic Large Concept Models (DLCM). Она ломает привычную парадигму равномерных вычислений LLM, где каждый токен обрабатывается с одинаковой глубиной. Вместо этого DLCM динамически группирует токены в ""концепты"" переменной длины на основе выученных семантических границ. Эти концепты обрабатываются мощным ""думающим"" бэкбоном в сжатом латентном пространстве, а затем декодируются обратно в токены. ПОЧЕМУ это важно: Это структурный сдвиг от предсказания следующего токена к ""рассуждению следующим концептом"". Отвязав гранулярность вычислений от количества поверхностных токенов, модель лучше справляется с задачами на рассуждение (вроде ARC и PIQA) при тех же затратах FLOPs на инференс. Вдобавок авторы предложили Decoupled µP и scaling law с учётом сжатия для стабилизации обучения таких гетерогенных архитектур. Подробнее: https://t.me/gonzo_ML_podcasts/1941"
"Развитие темы про Large Concept Model (LCM) и Byte Latent Transformer (BLT), в…
Из этого канала
- #4511#2026+ Про прошедший год написал, дайте теперь помечтаю про будущее.…
#2026+ Про прошедший год написал, дайте теперь помечтаю про будущее. Краткосрочное, на ближайший год или чуть дальше.
- #4512⚡️ Интересное железо Будут интересные применения non-conventional hardware типа…
⚡️ Интересное железо Будут интересные применения non-conventional hardware типа термодинамических компьютеров.
- #4514Адаптировали локальный алгоритм обучения Forward-Forward от Хинтона к…
Адаптировали локальный алгоритм обучения Forward-Forward от Хинтона к свёрточным сетям.
- #4504Забористая штука! Предлагают подход к созданию искусственных сред (или игр) с…
Забористая штука! Предлагают подход к созданию искусственных сред (или игр) с детерминированной сущностной компонентой и стохастической выразительной.
- #4503Да, чуть картинку не забыл!
Да, чуть картинку не забыл!