🔥Llama 4 — Scout, Maverick и Behemoth Все модели мультимодальные — нативно воспринимают текст, изображения и видео. Тренировали на 30 триллионах токенов, причём токенов с других языков теперь в 10x больше по сравнению с Llama 3. Идёт в трёх размерах: Scout (109B)— модель с 10 млн токенов контекста, что рекорд для релизнутой модели. По бенчам бьёт Gemma 3 и Gemini 2.0 Flash Lite, слегка не дотягивая до полноценной Flash 2.0. Это MoE модель с 16 экспертами, 109B параметров при 17B активных. С квантизацией влезает в одну GPU. Maverick (400B)— лучше Gemini 2.0 Flash с GPT 4o, примерно на одном уровне с обновлённым DeepSeek V3, но при этом модель мультимодальная и заметно меньше в размерах. Контекст — 1 миллион токенов, меньше чем у Scout, но сильно лучше чем у других конкурентов. Активных параметров всё те же 17B, но экспертов уже 128, поэтому и 400B параметров, Модель можно запустить в fp8 на одной ноде с 8xH100. Behemoth — гигантская модель на два триллиона параметров (288B активных, 16 экспертов). Бьёт вообщё все Instruct модели с заметным отрывом. Бегемота ещё тренируют, но его ранние версии уже были дистиллированы в Scout и Maverick, что сильно бустануло их перформанс. Это всё ещё Instruct релиз, но Llama 4 Reasoning тоже скоро будет. Веса @ai_newz