🔥Llama 4 — Scout, Maverick и Behemoth Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах: Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU. Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100. Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс. Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет. Веса @ai_newz
🔥Llama 4 — Scout, Maverick и Behemoth Все модели мультимодальные — нативно…
Из этого канала
- #3809Нейродайджест за неделю (#63) LLM - Ждём Qwen 3 — будут модельки всех размеров…
Нейродайджест за неделю (#63) LLM - Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- #3812Nvidia выпустила своего большого ризонера В основе — Llama 3.1 405B, которую…
Nvidia выпустила своего большого ризонера В основе — Llama 3.1 405B, которую запрунили до 253B параметров.
- #3813Вышел DeepCoder 14B Preview Новый ризонер специально для кода, лидирующий в 14B…
Вышел DeepCoder 14B Preview Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках.
- #3807"Cohere Command A - техрепорт Вышел подробнейший техрепорто от Cohere, где они…
"Cohere Command A - техрепорт Вышел подробнейший техрепорто от Cohere, где они делятся рецептами по обучению современных LLM.
- #3806Ушел гений. Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был…
Ушел гений. Он хоть и не был в AI тусовке, но Паша – это просто легенда. Он был и остается одним из моих любимых иполнителей.