Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то,… — @gonzo_ML

Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски. DMax: Aggressive Parallel Decoding for dLLMs __Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang__ Статья: https://arxiv.org/abs/2604.08302 Код: https://github.com/czg1225/DMax Модель: N/A Ревью: https://arxiviq.substack.com/p/dmax-aggressive-parallel-decoding # TL;DR ЧТО сделали: Авторы представили DMax — новый фреймворк обучения и инференса, созданный для реализации агрессивного параллельного декодирования в диффузионных языковых моделях (dLLM). Метод решает проблему каскадного накопления ошибок, которой страдают стандартные подходы к параллельному декодированию. DMax заменяет жёсткий бинарный переход «маска -> токен» на непрерывную самокорректирующуюся траекторию в пространстве эмбеддингов. Это достигается за счёт двух ключевых техник: On-Policy Uniform Training (OPUT) (обучение модели на её собственном предсказательном распределении для выучивания самоисправления) и Soft Parallel Decoding (SPD) (представление промежуточных состояний декодирования в виде взвешенной по степени уверенности интерполяции между эмбеддингами предсказанных токенов и маски). ПОЧЕМУ это важно: Неавторегрессионное параллельное декодирование обещает огромный прирост пропускной способности. Однако существующие маскированные диффузионные модели резко теряют в качестве генерации при попытке ускорить процесс из-за неисправимых ранних ошибок. DMax успешно преодолевает этот компромисс между скоростью и точностью. Применение DMax к сильному SOTA-бейзлайну LLaDA-2.0-mini (https://arxiv.org/abs/2512.15745) даёт ускорение более чем в 2.5 раза (по количеству токенов за один форвард-пасс) на сложных задачах на рассуждение (GSM8K) и генерацию кода (MBPP) при минимальной потере точности. На двух GPU H200 скорость генерации превышает 1300 токенов в секунду (TPS). Для практиков: DMax позволяет преодолеть барьер скорости для dLLM в реальных задачах (например, в интерактивных кодовых ассистентах или чат-ботах), не жертвуя при этом качеством генерации. Однако стоит учитывать, что метод требует этапа дообучения (on-policy файнтюнинга), а успешность мягкой интерполяции критически зависит от хорошей калибровки выходных вероятностей модели. Быстро декодировать тут: https://t.me/gonzo_ML_podcasts/3727

Из этого канала