Google выпустили открытую диффузионную языковую модель DiffusionGemma Год назад они релизили Gemini Diffusion, но тогда попробовать необычную модель можно было только по запросу. Сейчас же – совсем другое дело, копайтесь на здоровье кто угодно. Лицензия Apache 2.0. Фишка модели в том, что вместо генерации токенов один за одним, как абсолютно во всех других LLM, здесь они генерируются в произвольном порядке целыми блоками. Модель начинает с шума и итеративно уточняет весь текст параллельно. Другими словами, расшумляет, как в диффузионных генераторах картинок: отсюда и название. Во-первых, для многих доменов это теоретически более правильный подход. Например, написание кода – вещь нелинейная. А тут внутри двунаправленный механизм внимания, и кусочки последовательности можно генерировать в логическом порядке, а не просто слева направо. К тому же модель способна итеративно корректировать сама себя прямо во время генерации. Во-вторых, за счет параллельной генерации модель обеспечивает существенное ускорение. Google пишут об x4 на стандартных видеокартах: моделька летит 1000+ токенов в секунду на одной NVIDIA H100. По наполнению это MoE 26B c активными 3.8B, должна помещаться в 18GB VRAM с квантованием. БлогпостВесаГайд для разработчиков