⚪️ Февральский eval-2 (2) : тестируем QWEN 3.5 Plus #ddeval #feb2026eval2 ▶️ Напомню, что это эвал на широкий поиск issues не очень подходит для выводов о внимании моделей. Мы делаем общую приценочную оценку поведения и соотносим модели друг с другом. Сами полученные цифры можно считать условными попугаями, они важны только относительно цифр другой модели/агента. Для тестирования внимания/цепкости моделей будем делать другой эвал - по выеденным фокусам, возможно, несколько профилей с разными фокусами. Ранее проводимые эвалы доступны по тегам #ddeval #feb2026eval и #52vs53 План этого эвала предполагал доп тестирование свежего Qwen 3.5 Plus против уже проверенных атлетов: - OpenCode → zai-coding-plan/glm-5, - Droid → kimi-k2.5 / thinking, - Droid → minimax-m2.5 / medium, - Сodex → gpt-5.2 / high, - ну и сам пациент, Qwen cli → coder-model (qwen 3.5 plus) Заодно посмотрим, сохранится ли относительная картинка в сравнении с прошлым эвалом #feb2026eval . Семплинг всех моделей ставим на @3. Запускаем! После пары часов, потраты лимитов и нескольких падений разных упряжек по форматам JSON ответов (и фиксов) - все довели до результата. Тайминги и потрата токенов получились такие: * glm-5: 220-240s, а вот подсчет токенов скромный, опенкод насчитал до 1m токенов в каждом семпле (отметим, что с подсчетом токенов у опенкода есть вопросики); * kimi k2.5: 100-145s всего, и только 1-1.2m токенов; * minimax m2.5: 260-270 секунд, и 3.2-3.7m токенов; * gpt-5.2: тратит по 1000-1100 секунд на флоу (прайминг+ревью), и 19-20m токенов; * наконец, новый qwen 3.5 plus: 520-800s, и от 1.2 до 6.6m токенов Разброс показателей существенный! Еще и счетчики особо не отлажены в разных упряжках - может tokens не совсем адекватно считается, привожу их справочно - с этим вопросом надо дополнительно разибраться. Теперь цифирки кто и чего нашел * glm-5: нашла 21, 12 подтвержденных, 11 уникальных * kimi k2.5: нашла 36, но всего 13 подтверждено, 11 уникальных * minimax m2.5: нашла 23, 12 подтвердились, все 12 уникальные * gpt 5.2 нашла 26 issues, 26/26 подтверждено, 20 уникальных * qwen 3.5 : нашел 28, 11 подтверждено, 7 уникальных И расклад по приоритетам в подтвержденным находкам такой (p0-p3, p4 не классифицировано ни одной): glm-5: 12 - 0 | 4 | 5 | 3 k2.5: 13 - 0 | 4 | 8 | 1 m2.5: 12 - 1 | 2 | 3 | 6 gpt-5.2: 26 - 2 | 8 | 8 | 8 q3.5: 11 - 0 | 0 | 3 | 8 ▶️ Выводы: берем gpt-5.2 как бейзлайн фронтира, она уверенно смотрит issues медленно, но находит неплохо. Китайские модели будут послабее при широком поиске, на таких скромных семплингах результаты плавают, и сложно сказать кто умнее. Однако Qwen 3.5 выглядит слабее kimi / minimax / glm, что немного удивительно, ведь qwen весьма авторитетная лаба. Но цифры сами за себя говорят! 👉 Завершаем с этим этапом эвала и переходим к следующему @deksden_notes