Gemma 4 12B Принимает на вход текст, аудио и изображения с видео. Длина видео ограничена 30 секундами, а аудио 60 секундами. Модель ризонер, с 256к контекста и лицензией Apache 2.0. Самое интересное в релизе — то как в нём устроена мультимодальность. Обычно моделям для мультимодальности нужен отдельный энкодер, здесь же они обходятся простыми линейными проекциями, что требует меньше параметров и вычислений. Техрепорта к сожалению нет, так что как они это умудрились натренировать пока непонятно. Надеюсь что его, как и старшую Gemma 4 124B, всё таки когда-то релизнут. Веса @ai_newz
Gemma 4 12B Принимает на вход текст, аудио и изображения с видео. Длина видео…
Из этого канала
- #4600Microsoft опубликовали подробнейший тех-репорт о том, как они тренировали свою…
Microsoft опубликовали подробнейший тех-репорт о том, как они тренировали свою новую фронтир LLM с ризонингом.
- #4603У SpaceX новый клиент — Google В эту пятницу у компании IPO, так что лишняя…
У SpaceX новый клиент — Google В эту пятницу у компании IPO, так что лишняя выручка им не помешает.
- #4604Нейродайджест за две недели (#118) LLM - Opus 4.8 — Модель стала честнее, реже…
Нейродайджест за две недели (#118) LLM - Opus 4.8 — Модель стала честнее, реже срезает углы и лучше признает, если чего-то не знает.
- #4598Odysseus — ИИ-лаунчер от PewDiePie Пьюдипай прошел основную сюжетную ветку этой…
Odysseus — ИИ-лаунчер от PewDiePie Пьюдипай прошел основную сюжетную ветку этой жизни и собирает сайд-квесты.
- #4597Хочу рассказать про моих друзей беларусов из стартапа GRAI Ребята строят AI…
Хочу рассказать про моих друзей беларусов из стартапа GRAI Ребята строят AI music lab и хотят сделать так, чтобы пользователи могли экспериментировать с…