Gemma 4 12B Принимает на вход текст, аудио и изображения с видео. Длина видео ограничена 30 секундами, а аудио 60 секундами. Модель ризонер, с 256к контекста и лицензией Apache 2.0. Самое интересное в релизе — то как в нём устроена мультимодальность. Обычно моделям для мультимодальности нужен отдельный энкодер, здесь же они обходятся простыми линейными проекциями, что требует меньше параметров и вычислений. Техрепорта к сожалению нет, так что как они это умудрились натренировать пока непонятно. Надеюсь что его, как и старшую Gemma 4 124B, всё таки когда-то релизнут. Веса @ai_newz