Nvidia выпустила своего большого ризонера В основе — Llama 3.1 405B, которую запрунили до 253B параметров. В целом обгоняет DeepSeek R1 по качеству, причём практически на всех бенчах, в отличие от QwQ 32B, которая обгоняла лишь на отдельных. Модель влезает в FP8 в 4xH100, но для BF16 уже понадобится 8xH100, либо 4xB100. Для простых смертных они уже пару недель как выпустили модельки поменьше — 8B и 49B, основанные на Llama 8B и 70B соответственно. Веса @ai_newz
Nvidia выпустила своего большого ризонера В основе — Llama 3.1 405B, которую…
Из этого канала
- #3813Вышел DeepCoder 14B Preview Новый ризонер специально для кода, лидирующий в 14B…
Вышел DeepCoder 14B Preview Новый ризонер специально для кода, лидирующий в 14B весовой категории и догоняющий o3-mini и o1, когда они обе на low настройках.
- #3814Почему опенсорс – это круто? Наткнулся на такой тред в X – некоторые люди не…
Почему опенсорс – это круто? Наткнулся на такой тред в X – некоторые люди не понимают, зачем что-то опенсорсить (первый срин).
- #3817TPU v7 — Ironwood Google показали новое поколение TPU, на одном уровне с…
TPU v7 — Ironwood Google показали новое поколение TPU, на одном уровне с Blackwell. В новом поколении 4.6 Dense петафлопса на чип — чуть больше чем в B200.
- #3809Нейродайджест за неделю (#63) LLM - Ждём Qwen 3 — будут модельки всех размеров…
Нейродайджест за неделю (#63) LLM - Ждём Qwen 3 — будут модельки всех размеров от мобильных до гигантских.
- #3808🔥Llama 4 — Scout, Maverick и Behemoth Все модели мультимодальные — нативно…
🔥Llama 4 — Scout, Maverick и Behemoth Все модели мультимодальные — нативно воспринимают текст, изображения и видео.