Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая на кодинг бенчах тягается с Claude 4 без ризонинга, оставляя всё остальное позади. Ризонинг версию обещают позже, но не факт что она попадёт в опенсорс. При этом стоимость у модели сильно меньше чем у всех конкурентов — $0.6($0.15 при попадании в кэш)/$2.5 за миллион токенов. Китайцы даже запилили хак чтобы подключить её к Claude Code, но непонятно насколько в безопасности ваши данные в китайском API. Но так как модель открытая, то скоро её начнёт хостить дюжина провайдеров, да и селфхостинг тоже опция. Это MoE на архитектуре от DeepSeek V3, размером в триллион параметров, из которых 32B — активные. Тренировали на 15.5 триллионах токенов. Что интересно, использовали MuonClip — модифицированную версию оптимайзера, который придумали в конце прошлого года для спидранов NanoGPT (автора кстати схантили OpenAI). Модификация оптимайзера сделала тренировку крайне стабильной — во время тренировки вообще не было лосс спайков. Китайцы как обычно вытягивают опенсорс. И это даже не первый релиз от Moonshot на этой неделе. На днях они выпустили релизную версию Kimina Prover — семейство SOTA моделей для математики размерами от 1.7B до 72B, самая большая из них обгоняет DeepSeek Prover V2. Веса Блогпост Код @ai_newz
Kimi K2 — SOTA не-ризонинг агентная модель для кодинга Открытая модель, которая…
Из этого канала
- #4024Мы живем в абсолютно проклятое время 😁 @ainewz
Мы живем в абсолютно проклятое время 😁 @ainewz
- #4025Нейродайджест за неделю (#77) LLM - SmolLM 3 — Полностью открытая SOTA-ризонинг…
Нейродайджест за неделю (#77) LLM - SmolLM 3 — Полностью открытая SOTA-ризонинг модель на 3B параметров.
- #4026Grok теперь аниме-девочка Новая фича Companions даёт гроку анимированные…
Grok теперь аниме-девочка Новая фича Companions даёт гроку анимированные аватары в голосовом режиме.
- #4021Что лучше чем подписка за $200? Подписка за $300! Только бы такие инновации в…
Что лучше чем подписка за $200? Подписка за $300! Только бы такие инновации в бизнес модели не начали копировать другие компании. @ainewz
- #4016Вышел Grok 4 SOTA на нескольких бенчах — выбивает идеальный результат на…
Вышел Grok 4 SOTA на нескольких бенчах — выбивает идеальный результат на AIME25. Результаты на ARC-AGI-2 почти в два раза выше чем у прошлого лидера — Claude 4…