"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле.… — @deksden_notes

"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях. 👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5 Давайте перечислю свои наблюдения: * gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5. * glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный. * модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный * kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено * flash 3 работает в ревью заметно лучше 3.1 pro * flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2 👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся ""широких"" прогонов. ▶️ Ранее ""плотность"" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6. ☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок. 🟢 Такой эвал получился. @deksden_notes"

Из этого канала