Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз. То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста. На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090. DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да! Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).
Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с…
Из этого канала
- #3702Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и…
Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и картинку, и гифку вместе.
- #3701В контексте выхода более дорогой, но способной Fable, которая даже в подписку…
В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка…
- #3700What did they mean by this
What did they mean by this