Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling: A Strategic Analysis of Embedded Language Flows __Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He__ Статья: https://arxiv.org/abs/2605.10938 Код: https://github.com/lillian039/ELF Ревью: https://arxiviq.substack.com/p/elf-embedded-language-flows # TL;DR ЧТО сделали: Авторы представили Embedded Language Flows (ELF) — языковую модель на основе непрерывной диффузии, использующую continuous-time Flow Matching. ELF работает полностью в непрерывном пространстве эмбеддингов высокой размерности, использует единую сеть с общими весами для денойзинга и применяет дискретизацию (перевод эмбеддингов обратно в токены) исключительно на самом последнем шаге генерации. ПОЧЕМУ это важно: Этот фреймворк успешно опровергает устоявшееся мнение о том, что для генерации текста строго необходимы алгоритмы дискретной диффузии. ELF демонстрирует превосходное качество генерации за значительно меньшее число шагов сэмплинга и требует на порядок меньше токенов для обучения по сравнению с ведущими дискретными моделями. По сути, это открывает путь к долгожданной унификации базовых архитектур для генерации текста, изображений и видео. Для практиков: Для исследователей и техлидов, присматривающихся к мультимодальным архитектурам нового поколения, разрыв между непрерывной диффузией в CV и дискретной диффузией (или авторегрессией) в NLP долгое время был главной архитектурной болью. Работа ELF доказывает, что исторически слабые результаты языковых моделей на непрерывной диффузии были вызваны плохими дизайнерскими решениями — в частности, промежуточной дискретизацией на каждом шаге денойзинга — а не фундаментальной несовместимостью парадигмы с языком. Благодаря использованию единой сети как для непрерывного потока, так и для финальной проекции в дискретный словарь, языковые модели теперь могут унаследовать законы масштабирования, стабильность обучения и методы сэмплинга (например, Classifier-Free Guidance), которые ранее стали драйвером невероятного прогресса в генерации картинок. Диффундировать здесь: https://t.me/gonzo_ML_podcasts/3662
Рабочая диффузия приходит в язык. Continuous Diffusion Meets Language Modeling:…
Из этого канала
- #5402"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один…
"С одной стороны весь файнтюнинг безопасности можно обойти, воздействуя на один единственный нейрон, с другой стороны если грохнуть одну конкретную важную для…
- #5406Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией…
Больше рекурсий богу рекурсий! По факту добавили в TRM работу с популяцией решений.
- #5410Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs…
Стратегии test-time scaling вручную подбирать не надо, когда есть автомат. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling Tong Zheng, Haolin Liu,…
- #5393Про разную экономику разметки для реворда и для динамики среды при обучении…
Про разную экономику разметки для реворда и для динамики среды при обучении моделей мира.
- #5386Большой обзор про модели мира для роботов. World Model for Robot Learning: A…
Большой обзор про модели мира для роботов. World Model for Robot Learning: A Comprehensive Survey Bohan Hou, Gen Li, Jindou Jia, Tuo An, Xinying Guo, Sicong…