Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%. Модель от OpenAI также набрала больше всех в каждом домене, кроме, внезапно, Browser Automation, где немного выбился вперёд Grok 4. Лучшая опенсурс-модель — GLM-4.5, хотя я думал бы на Kimi-K2, ведь они так описывали свой процесс дообучения использованию MCP.