И снова BLT, но теперь быстрый! Fast Byte Latent Transformer __Julie Kallini, Artidoro Pagnoni, Tomasz Limisiewicz, Gargi Ghosh, Luke Zettlemoyer, Christopher Potts, Xiaochuang Han, Srinivasan Iyer__ Статья: https://arxiv.org/abs/2605.08044v1 Ревью: https://arxiviq.substack.com/p/fast-byte-latent-transformer # TL;DR ЧТО сделали: Авторы представили три метода генерации — BLT Diffusion (BLT-D), BLT Self-speculation (BLT-S) и BLT Diffusion+Verification (BLT-DV) — для параллельного декодирования байтов в иерархических языковых моделях. Используя поблочную дискретную диффузию и внутреннее спекулятивное декодирование, они обходят узкое место строгой авторегрессионной побайтовой генерации. ПОЧЕМУ это важно: Байтовые архитектуры по своей природе решают проблемы сабворд-токенизации (например, уязвимость к состязательным атакам и неравенство языков), но до сих пор страдали от медленного инференса. Снижая затраты на пропускную способность памяти (memory bandwidth) до 92% в некоторых конфигурациях, эти методы делают foundation модели без токенизатора вычислительно конкурентоспособными для реального применения. Для практиков: Фреймворк BLT-S позволяет ускорить инференс и снизить нагрузку на память без потери качества, используя саму модель в качестве генератора черновиков (drafts). Пока нет оптимизированных CUDA-ядер, это скорее концепт, но в перспективе — это готовый рецепт для деплоя байтовых моделей в продакшен. Ускорять инференс здесь: https://t.me/gonzo_ML_podcasts/3597