Детали DeepSeek V3.1 Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению с V3-0324. А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве. Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell. С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling. Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша. Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface. @ai_newz
Детали DeepSeek V3.1 Самый сильный прирост заметен в агентных бенчах и…
Из этого канала
- #4121Если вам не хватало странного в жизни — PewDiePie выпустил видео, где он…
Если вам не хватало странного в жизни — PewDiePie выпустил видео, где он собирает сервер для локального инференса LLM своими руками.
- #4122GigaAM: эффективный метод предобучения для распознавания речи Исследователи из…
GigaAM: эффективный метод предобучения для распознавания речи Исследователи из Сбера представили новый подход к обучению моделей распознавания речи, который…
- #4123Фей-Фей Ли хвастается world model своего стартапа — World Labs Для генерации…
Фей-Фей Ли хвастается world model своего стартапа — World Labs Для генерации всего мира понадобилась всего лишь одна картинка, причём по видео видно что…
- #4117🐳DeepSeek V3.1 Очередной апдейт V3 линейки, на той же архитектуре, но на этот…
🐳DeepSeek V3.1 Очередной апдейт V3 линейки, на той же архитектуре, но на этот раз апдейтнули и base модель.
- #4116Две AI/ML-вакансии в продуктовой компании Команда, развивающая AI-продукт с MAU…
Две AI/ML-вакансии в продуктовой компании Команда, развивающая AI-продукт с MAU 40 млн, ищет двух специалистов: Lead и Engineer. 1.