K2 Vendor Verifier Команда Kimi решила протестить разных вендоров своей модели на точность тулюза. Каждому провайдеру дают 2 тысячи одинаковых запросов и сравнивают результаты с официальным API. Результаты вышли не очень — у всех протестированных 3rd party провайдеров заметные проблемы. К сожалению, Groq, самого интересного провайдера K2 не затестили. Подобные тесты уже делали Artificial Analysis с gpt-oss, и обнаружили пропасть между провайдерами по результатам бенчей. Пора делать такие тесты повсеместными для всех моделей и провайдеров, иначе баги инференса будут и дальше тихо портить всем жизнь. https://github.com/MoonshotAI/K2-Vendor-Verfier @ai_newz