DeepSeek V3.2 и V3.2 Speciale На бенчах показывает крайне сильный перформанс, сравнимый с GPT-5 High. Модель использует DeepSeek Sparse Attention, заметно более эффективно работающий с длинным контекстом. V3.2 Speciale, версия с повышенным использованием компьюта, местами обходит Gemini 3 Pro Preview, но использует при этом заметно больше токенов (но учитывая разницу в цене, Speciale всё равно в разы дешевле). К тому же Speciale достигает той же золотой медали на IMO что и DeepSeek Math V2, но не останавливается на этом и выдаёт перформанс на уровне золотой медали ещё и на международной олимпиаде по информатике (IOI). Модели уже доступны в чате и API. В API DeepSeek теперь доступен тулюз для ризонера. Цена на модели не изменилась и остаётся $0.28/$0.42 за миллион токенов. DeepSeek V3.2 Speciale будет временно доступна в API без тулюза до 15 декабря. Веса V3.2 Веса V3.2 Speciale Техрепорт @ai_newz
DeepSeek V3.2 и V3.2 Speciale На бенчах показывает крайне сильный перформанс,…
Из этого канала
- #4293Runway Gen-4.5 Whisper Thunder на арене оказался новой моделькой от Runway, она…
Runway Gen-4.5 Whisper Thunder на арене оказался новой моделькой от Runway, она побила Veo 3 на 20 ELO.
- #4294Mistral Large 3 — у нас есть DeepSeek дома Архитектурно модель DeepSeek V3 с…
Mistral Large 3 — у нас есть DeepSeek дома Архитектурно модель DeepSeek V3 с немного другим конфигом.
- #4295Вообще релиз довольно грустный и далеко не СОТА даже в опенсорсе. Что-то на…
Вообще релиз довольно грустный и далеко не СОТА даже в опенсорсе. Что-то на круассановой диете модельки не очень выходят. Китайцы пока люто рулят в опенсорсе.
- #4290"Нейродайджест за неделю (#96) LLM - Claude Opus 4.5 — Anthropic выпустили…
"Нейродайджест за неделю (#96) LLM - Claude Opus 4.5 — Anthropic выпустили новую SOTA-модель для кодинга, которая обходит всех конкурентов.
- #4289Интересная диаграмма из свежего репорта SemiAnalysis Показывает насколько…
Интересная диаграмма из свежего репорта SemiAnalysis Показывает насколько дешевле свежие TPU v7 Ironwood для Google по сравнению с GB300.