K2 Vendor Verifier Команда Kimi решила протестить разных вендоров своей модели на точность тулюза. Каждому провайдеру дают 2 тысячи одинаковых запросов и сравнивают результаты с официальным API. Результаты вышли не очень — у всех протестированных 3rd party провайдеров заметные проблемы. К сожалению, Groq, самого интересного провайдера K2 не затестили. Подобные тесты уже делали Artificial Analysis с gpt-oss, и обнаружили пропасть между провайдерами по результатам бенчей. Пора делать такие тесты повсеместными для всех моделей и провайдеров, иначе баги инференса будут и дальше тихо портить всем жизнь. https://github.com/MoonshotAI/K2-Vendor-Verfier @ai_newz
K2 Vendor Verifier Команда Kimi решила протестить разных вендоров своей модели…
Из этого канала
- #4188Suno V5 + Suno Studio — RIP Mozart AI Недавно я писал про Mozart AI, которые…
Suno V5 + Suno Studio — RIP Mozart AI Недавно я писал про Mozart AI, которые пытались сделать AI DAW (Digital Audio Workstation) для музыкантов.
- #4189Нейродайджест за неделю (#88) LLM - DeepSeek V3.1 Terminus — Вероятно,…
Нейродайджест за неделю (#88) LLM - DeepSeek V3.1 Terminus — Вероятно, последний релиз в линейке V3. Выросла по агентским бенчам. Ждём V4 в ближайшие недели.
- #4190Bitter Lesson снова в деле. Это главная мысль из доклада Дмитрия Иванова…
Bitter Lesson снова в деле. Это главная мысль из доклада Дмитрия Иванова (Yandex B2B Tech) с big tech night.
- #4186Яндекс решил зайти со стороны no-code и обновил свою AI Studio (не путать с…
Яндекс решил зайти со стороны no-code и обновил свою AI Studio (не путать с aistudio.google.com).
- #4185ChatGPT Pulse Теперь ChatGPT может проактивно ресёрчить топики которые считает…
ChatGPT Pulse Теперь ChatGPT может проактивно ресёрчить топики которые считает важными и выдавать репорт каждое утро.