Mistral выкатили Small 4 И всё грустно. На опубликованных бенчах модель проигрывает сентябрьскому Qwen 3 Next, у которого в полтора раза меньше параметров в целом и в два раза меньше активных. Моделька мультимодальная с 256к токенов контекста. Архитектура — та же вариация на тему DeepSeek V3 что использовалась в Large 3. Доступна по Apache 2.0, базовую модель не выложили, но зато сделали голову для спекулятивного декодинга. Веса: FP8/NVFP4 @ai_newz
Mistral выкатили Small 4 И всё грустно. На опубликованных бенчах модель…
Из этого канала
- #4479Партнеры Nvidia открыли предзаказы на DGX Station Это десктопная машинка с…
Партнеры Nvidia открыли предзаказы на DGX Station Это десктопная машинка с одной GB300 на 748 гигов оперативки внутри (треть из этого HBM 3E, остальное…
- #4480Midjourney V8 alpha! Все долго ждали новой модели от MJ и вот она (ну почти)!…
Midjourney V8 alpha! Все долго ждали новой модели от MJ и вот она (ну почти)! Что обещают: — лучшее понимание сложных промптов — сильнее personalization / sref…
- #4481Street View через нейросеть Корейцы из Naver показали Seoul World Model —…
Street View через нейросеть Корейцы из Naver показали Seoul World Model — заметную часть Сеула вышло впихнуть в одну модельку.
- #4475Тут Хуанг опять сливает размеры моделей OpenAI Похоже в GPT-5 всего два…
Тут Хуанг опять сливает размеры моделей OpenAI Похоже в GPT-5 всего два триллиона параметров.
- #4474Нейродайджест за неделю (#109) LLM - Мультимодальные эмбеддинги от Google —…
Нейродайджест за неделю (#109) LLM - Мультимодальные эмбеддинги от Google — Gemini Embedding теперь может нативно обрабатывать до 120 секунд видео, PDF, аудио…