"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле. Мы получили кучу данных, они перед глазами. А вот понять - о чем это, как это понимать, - это самое сложное в такого рода исследованиях. 👉 TLDR: Gpt-5.2 > Flash 3 > Glm-5 + Kimi K2.5 Давайте перечислю свои наблюдения: * gpt-5.2 заметно глубже и внимательнее думает, все таки бейзлайн фронтира как есть! нашел более глубокие проблемы, все верифицированы - отличные рейты. Удвительно, что думал наже немного побыстрее glm-5. * glm-5 нынче довольно долго думала, вышло даже дольше gpt-5.2, что удивительно. Нет, у меня у клозедов не pro тариф с быстрым инференсом, обычный. * модели на фокусах в целом здорово улучшили рейт верификации - почти все находки подтвердились, рост доли верифицированных находок заметный * kimi довольно шустрая, по качеству работы весьма сравнима с glm-5, разброса в качестве между ними не выявлено * flash 3 работает в ревью заметно лучше 3.1 pro * flash-3 немного (не сильно, но заметно) лучше по качеству справился с работой, чем киты - все таки фронтир, видимо; но не уровень gpt-5.2 👉 Главный вывод: фокусная работа дает результаты. За семплы этого эвала было обнаружено в х2 больше issues этих категорий, чем из всех ранее запускавшихся ""широких"" прогонов. ▶️ Ранее ""плотность"" обнаружения issues в этих фокусах была 0.9 на сэмпл, а в фокусном эвале - 5+ на семпл. Рост почти х6. ☝️ Итого: в продакшене в оркестраторе - только фокусные эвалы. Фан-аут на каждый фокус и интеграция результатов. Качество растет в разы. Большой плюс от использования разных моделей - очень низкие коэффициенты пересечения находок. 🟢 Такой эвал получился. @deksden_notes"
"⚪️ Eval-3 (3): итоги #ddeval #feb2026eval3 Самая сложная часть, на самом деле.…
Из этого канала
- #510"⚪️ Забавное Переведу: https://x.com/fortelabs/status/2026681391384068260?s=20…
"⚪️ Забавное Переведу: https://x.com/fortelabs/status/2026681391384068260?s=20 —— Подождите, значит, основателем Anthropic является ""Амодей"", то есть…
- #511⚪️ Кодинговый план алибабы Получил апгрейд Теперь ВСЕ топовые киты доступны в…
⚪️ Кодинговый план алибабы Получил апгрейд Теперь ВСЕ топовые киты доступны в нем! $5 в первый месяц, $10 далее.
- #512"⚪️ Смерть SDLC В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб…
"⚪️ Смерть SDLC В уютном платном чате у Алмаза 😎 @almazom (ИИ клуб ""ИИшница"") обнаружилась ссылка на любопытную статейку: 🔗…
- #508"⚪️ Eval-3 (2): а вот и он! #ddeval #feb2026eval3 Итак, приступим, помолясь.…
"⚪️ Eval-3 (2): а вот и он! #ddeval #feb2026eval3 Итак, приступим, помолясь. Запускаю, конкурентность 2 на каждую модель. 😱 Что можно отметить.
- #507"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий…
"⚪️ Eval-3 (1): планы #ddeval #feb2026eval3 Итак, мы сделали eval-2 как общий обзорный эвал, и посмотрели как работают свежие модели (qwen 3.5 и gemini 3.1).