Работа про Continuous Autoregressive Language Models. Генерим непрерывный… — @gonzo_ML

Работа про Continuous Autoregressive Language Models. Генерим непрерывный вектор, из которого через VAE восстанавливаем сразу K токенов (например, 4). Очень странно, что авторы вообще никак не упомянули работу про Coconut (https://t.me/gonzo_ML/3567). Continuous Autoregressive Language Models __Chenze Shao, Darren Li, Fandong Meng, Jie Zhou__ Статья: https://arxiv.org/abs/2510.27688 Код: https://github.com/shaochenze/calm Проект: https://shaochenze.github.io/blog/2025/CALM Ревью: https://arxiviq.substack.com/p/continuous-autoregressive-language # TL;DR 🤔 Что сделали? В статье представлена новая парадигма — непрерывные авторегрессионные языковые модели (Continuous Autoregressive Language Models, CALM). Она смещает фокус генерации LLM с последовательного предсказания дискретных токенов на предсказание непрерывных векторов. Для этого используется надёжный вариационный автоэнкодер, который с высокой точностью сжимает чанк из K токенов в один непрерывный вектор, сокращая количество авторегрессионных шагов в K раз. Переход в непрерывную область потребовал разработки целого набора инструментов, не использующих функцию правдоподобия. В него вошли: голова Energy Transformer для эффективной одношаговой генерации векторов; новая метрика BrierLM, основанная на строго корректной оценочной функции Brier score; и теоретически обоснованный black-box алгоритм для сэмплинга с температурой. 🚀 Почему это важно? Эта работа напрямую решает фундаментальную проблему вычислительной неэффективности LLM — их пошаговый процесс генерации токен за токеном. Увеличивая «семантическую пропускную способность» каждого шага генерации, CALM открывает новую и очень эффективную ось масштабирования для языковых моделей. Эксперименты показывают, что такой подход обеспечивает лучший компромисс между производительностью и затратами на вычисления. Например, модель CALM достигает производительности сильного дискретного бейзлайна, требуя на 44% меньше FLOPs для обучения и на 34% меньше FLOPs для инференса. Таким образом, предсказание следующего вектора становится мощным и масштабируемым путём к созданию сверхэффективных языковых моделей, выходя за рамки традиционных законов масштабирования, сфокусированных только на параметрах и данных. Подробнее: https://t.me/gonzo_ML_podcasts/1340

Из этого канала