Вышли превью DeepSeek v4: 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. 🔹 DeepSeek-V4-Flash: 284B total / 13B active params. Статья тут Архитектурные фичи: — новые виды аттеншена для поддержки длинных контекстов: CSA и HCA (третья картинка) — mHC из недавней статьи — Engram нет — претрейн на 32Т токенов с Muon, FP4 Играться можно на сайте deepseek.ai В API тоже есть, $0.14/$0.28 за Flash и $1.74/$3.48 за Pro~ Happy DeepSeek v4 day everyone
Вышли превью DeepSeek v4: 🔹 DeepSeek-V4-Pro: 1.6T total / 49B active params. 🔹…
Из этого канала
- #3573🍿 самая интересная часть
🍿 самая интересная часть
- #3575На картинке с сайта под табличкой есть приписка: Из-за ограничений в…
На картинке с сайта под табличкой есть приписка: Из-за ограничений в вычислительных мощностях текущая пропускная способность сервиса весьма ограничена.
- #3576Как же всё таки приятно видеть возвращение табличек, где уместно, в GPT-5.5.…
Как же всё таки приятно видеть возвращение табличек, где уместно, в GPT-5.5. Welcome back, o3 😊
- #3569Когда вышел Opus 4.6 (а потом и 4.7 (а потом и Mythos)), то Andon Labs…
Когда вышел Opus 4.6 (а потом и 4.7 (а потом и Mythos)), то Andon Labs прогоняли модели на Vending Bench — это где LLM в симуляции управляет бизнесом в виде…
- #3568Хоть пересекающихся бенчмарков не так много, ответ, видимо, такой, что Mythos…
Хоть пересекающихся бенчмарков не так много, ответ, видимо, такой, что Mythos лучше (но к нему у нас и доступа нет 😀).