⚪️ Приступим к эвалу #ddeval #feb2026eval Ну - и к цифрам по отчетам! Это и есть, собственно, эвал - количественное выражение некоего эксперимента/оценки. Сейчас мы из всех сессий каждого агента/модели будем формировать сводную табличку со сведениями из всех трех сессий: выпишем все найденные проблемы и чере gpt-5.2 верифицируем, подтверждает ли она их по коду. 1️⃣ GLM-5: (найдено проблем, подтверждено) * итого: 57 / 36 - 63% * g1: 37 / 26 - 70% * g2: 32 / 20 - 63% * g3: 15 / 12 - 80% 2️⃣ Minimax M2.5: * итого: 36 / 21 - 58% * m1: 19 / 12 - 63% * m2: 22/13 - 59% * m3: 10/6 - 60% 3️⃣ Kimi K2.5: * итого: 58 /42 - 72% * k1: 43/34 - 79% * k2: 24/20 - 83% * k3: 33/25 - 76% 4️⃣ Opus 4.6: * итого: 55 / 45 - 82% * o1: 27 / 24 - 89% * o2: 20 / 19 - 95% * o3: 34 / 26 - 76% 5️⃣ Gemini 3 pro: * итого: 26 / 20 - 77% * gm1: 14 / 12 - 86% * gm2: 12 / 9 - 75% * gm3: 10 / 9 - 90% 6️⃣ Gpt 5.2: (да, сам себя верифицировал) * итого: 29/27 - 93% * c1: 19/19 - 100% * c2: 14/12 - 86% * c3: 16/16 - 100% 👉 Да, уже сейчас можно сделать определенное наблюдение по эвалу, по долже верифицированных находок, итого: - glm-5 : 63% - m2.5 : 58% - K2.5 : 72% - Opus 4.6: 82% - Gemini 3 pro: 77% - Gpt 5.2 : 93% 🟢 В целом я ожидал похожего распределения. Но нужно свести все отчеты, и посмотреть итоговые цифры. Замечу еще, что лимиты на опуса в антигравити на тарифе AI PRO вылетают очень и очень быстро, работать на таких лимитах почти невоможно. Агентов по отдельности посмотрели, переходим к их сопоставлению. @deksden_notes
⚪️ Приступим к эвалу #ddeval #feb2026eval Ну - и к цифрам по отчетам! Это и…
Из этого канала
- #459"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть…
"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть консолидированные отчеты каждого агента, по 3 отчета на каждого агента.
- #460⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval…
⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval Решил еще немного помучать агента статистикой.
- #461⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval…
⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval #feb2026eval родилась интересная идея - а что если затестить как влияет…
- #457⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2…
⚪️ Большой февральский тест: Glm-5, M2.5, K2.5, opus 4.6, gemini 3 pro, gpt-5.2 #ddeval #feb2026eval Итак, сегодня делаем большой тест свежих моделей китов…
- #456⚪️ Стадия широкого исследования #ddeval #feb2026eval Итак, закидываем промпт…
⚪️ Стадия широкого исследования #ddeval #feb2026eval Итак, закидываем промпт на широкое исследование тестового проекта.