Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought… — @gonzo_ML

Статей про работу с текстом на уровне концептов прибыло. BLT, LCM, Thought Gestalt, LLM-JEPA, ... Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models __Yuliang Liu, Yunchong Song, Yixuan Wang, Kewen Ge, Alex Lamb, Qipeng Guo, Kai Chen, Bowen Zhou, Zhouhan Lin__ Статья: https://arxiv.org/abs/2602.08984 Ревью: https://arxiviq.substack.com/p/next-concept-prediction-in-discrete Код: https://github.com/LUMIA-Group/ConceptLM # TL;DR ЧТО сделали: Авторы представили ConceptLM — фреймворк, который дополняет стандартное предсказание следующего токена (NTP) задачей предсказания следующего концепта (Next Concept Prediction, NCP). Вместо генерации исключительно токен за токеном, модель сначала предсказывает высокоуровневый «концепт» — дискретный латентный вектор, кодирующий спан из `k` токенов. Затем этот концепт используется как условие для генерации конкретного текста. Получается двухуровневая иерархия, где модель неявно «планирует» будущее в семантическом пространстве перед выбором синтаксиса. ПОЧЕМУ это важно: Работа бьёт в больное место текущих LLM — их «близорукость» и неэффективность в рассуждениях. Заставляя модель работать в абстрактном латентном пространстве, ConceptLM улучшает законы скейлинга (scaling laws): она достигает качества GPT-2/Pythia, используя на 37% меньше параметров или на 24% меньше токенов при обучении. Теоретически это приближает нас к парадигме «World Model» (как JEPA в зрении), где предсказание происходит на уровне смыслов, а не пикселей или букв. Подробнее: https://t.me/gonzo_ML_podcasts/2480

Из этого канала