Новая новая моделька от DeepSeek для интересующихся. Модель тренировали свежей V3.1-Terminus, но слегка изменив механизм внимания, DeepSeek Sparse Attention. Если очень вкратце, то теперь каждый токен обращает внимание на 2048 других, а не все предыдущие, и на основе слегка по-другому посчитанного произведения Q и K. Замена уже применявшегося механизма на новый не требует обучения с нуля — V3.2 это та же V3.1, дообученная на примерно триллионе токенов. Получается существенно снизить затраты на поддержание длинного контекста — что очень важно в эпоху рассуждающих моделей; Я думаю, что скорее всего главная причина движения в этом направлении — более длинные цепочки рассуждений для задач, требующих сотни вызовов инструментов. За миллион сгенерированных токенов у новой модели будут просить $0.42 (вместо $1.68 на V3.1). По метрикам показывают, что качество не страдает. Статья с техническими подробностями того, как работает новый Attention, тут. Интересное в ней, кроме Sparse Attention, тоже есть: теперь 3 отдельных шага RL-обучения (обучения рассуждениям) слили в один, и, наконец, используют GRM для оценки ответов в задачах без правильного ответа. Детальный разбор того, как это работает, делал тут.
Новая новая моделька от DeepSeek для интересующихся. Модель тренировали свежей…
Из этого канала
- #2944https://www.anthropic.com/news/claude-sonnet-4-5
https://www.anthropic.com/news/claude-sonnet-4-5
- #2949Claude Code 2.0 Но что ещё интереснее, anthropic опубликовали claude code 2.0!…
Claude Code 2.0 Но что ещё интереснее, anthropic опубликовали claude code 2.0! https://www.npmjs.com/package/@anthropic-ai/claude-code Из интересных изменений:…
- #2950К осуществлению теории мёртвого интернета приготовиться: OpenAI планирует…
К осуществлению теории мёртвого интернета приготовиться: OpenAI планирует запустить отдельное приложение для своей модели генерации видео Sora 2, сообщает…
- #2939В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в…
В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в 2025-м году у ChatGPT как флагманского продукта компании будет МНОГО рекламы.
- #2938Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть…
Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть аккаунт — лайкните пж.