"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть… — @deksden_notes

"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть консолидированные отчеты каждого агента, по 3 отчета на каждого агента. Теперь необходимо консолидировать их в единый отчет и посмотреть статистику. Методика простая: консолидируем найденные проблемы в единую табличку. И анализируем сколько итоговых проблем найдено каждым агентом. Давайте посмотрим результаты. Запрягать на анализ будем 5.2 на xhigh, так как нам нужно внимательно все посчитать. Итоги: всеми агентами найдено 227 проблем. Интересные цифры - сколько уникальных проблем найдено определенным агентом/моделью: - glm-5: 45 - Minimax M2.5: 27 - Kimi K2.5: 51 (!!!) - Opus: 44 - Gpt5.2: 24 - Gemini: 17 Получилось что 208 из 227 проблем найдены только одним агентом. И только 19 проблем были найдены несколькими агентами: 9 проблем нашли 2 агента, 6 — 3 агента, 3 — 4 агента, 1 — 5 агентов. Проценты верифицированных находок такие: - glm-5: 63.2% - Minimax M2.5: 63.9% - Kimi K2.5: 72.4% - Opus: 81.8% - Gpt5.2: 93.1% - Gemini: 84.6% 👉 Важно понимать: у ""широкого"" анализа существуют особенности методики. Она не сравнивает воможности моделей впрямую, потому что на широкой задаче находки зависят в значительной степени от случайности, куда ""качнется"" внимание модели. Я сравниваю общее поведение моделей и делаю некие обобщающие наблюдения. Внимательность модели и насколько она ходит ""глубоко"" будем тестировать вторым этапом - ""узкая"" задача позволит сравнить что сумеют найти разные модели/агенты. ‼️ Что могу обобщить в наблюдениях этого этапа: * процент верификации некоторым образом отражает ""сообразительность"", внимательность и въедливость модели; в целом мои ""ощущения"" сошлись с цифрами, но от GLM я ждал большего; * модели ""видят"" очень разные вещи; мне нравится термин ""оптика"" - и для объемного взгляда на проект нужно смотреть на него чере разную оптику; * мультисемплинг также работает: каждый прогон даже той же моделью находит разные моменты; меньше 3х прогонов делать бессмысленно - у меня часто 2 прогона почти идентичные, а вот 3 уже выделяется; наверное, для сурьезных вопросов ориентируйтесь на 5 прогонов; да, лимиты - вылетают, есть такое; * верификация находок, желательно ""умной"" моделью нужна обязательно - процент подтвержденных находок даже фронтирных моделей не 100%; для фронтирных китов он в районе 60-75% всего; * распределение между Gpt/Opus/Gemini отражает мое ощущение от работы с моделями. * выходит что Glm все еще посильнее Minimax * удивляет Kimi довольно высокими результатами, мне казалось Glm-5 может быть выше нее, но нет - видимо, такой класс задачи. * ""руками"" делать эвалы довольно хлопотно - для регулярных тестов нужно будет автоматизировать; * упряжка openCode работает местами даже лучше CC: во всяком случае GLM в openCode работает стабильнее, у меня было меньше лагов * лимиты Opus в Антигравити на подписке AI PRO - смешные 🟢 Такой вот эвал получился! Попробую на днях сделать второй этап. (ц) Такое мы практикуем @deksden_notes"

Из этого канала