⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval Решил еще немного помучать агента статистикой. На сей раз посмотреть сколько проблем категорий P0-P4 обнаружили агенты. 🟢 Все знают что такое P0-P4? Это стандартная классификация выявленных проблем по критичности (P- как раз от Proprity). Все модели знаю про эту классификацию и неплохо ею пользуются. Вот вам пучок теории: 0️⃣ P0 (Critical/Blocker): Критическая ошибка. Блокирует выкладку (релиз). Код нельзя мержить ни в коем случае, так как он сломает билд, нарушит безопасность или уронит систему. 1️⃣ P1 (High): Важная правка. Ошибка в логике, отсутствие тестов для важного функционала или серьезное нарушение архитектуры. Исправить нужно обязательно перед мержем. 2️⃣ P2 (Medium/Normal): Стандартное замечание. Мелкие баги, нарушение стайлгайда или неоптимальный (но рабочий) код. Обычно ожидается исправление, но в экстренных случаях можно обсудить перенос в техдолг. 3️⃣ P3 (Low): Пожелание (Nitpick). Незначительные опечатки в комментариях или предложения по микро-оптимизации. Исправление на усмотрение автора, мержить можно и без них. 4️⃣ P4 (Trivial/Inquiry): Вопрос или долгосрочное предложение. «А почему здесь так?», «В будущем стоит это переписать». Не требует немедленных действий. 👉 Простая, но удобная классификация. Посмотрите на табличку в картинке! напомню: • G=GLM • K=Kimi • M=Minimax • O=Opus • GM=Gemini • C=Codex (gpt 5.2) любопытные результаты: • блокеры находят ВСЕ модели, не только фронтир • киты по совокупности нашли больше важных косяков, чем фронтир • напомню, что не все находки были верифицированы, и у фронитра процент верификации значительно выше ИТОГО: все модели нам нужны, все модели нам важны! @deksden_notes
⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval…
Из этого канала
- #461⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval…
⚪️ Мультисемплинг для агентов в ревью При обсуждении последнего эвала #ddeval #feb2026eval родилась интересная идея - а что если затестить как влияет…
- #462Проблема кодинга с AI в том, что оно, внезапно, требует подготовки и с наскока…
Проблема кодинга с AI в том, что оно, внезапно, требует подготовки и с наскока не получится добиться надёжного результата.
- #463⚪️ Droid Текущий ассортимент моделей в дроиде весьма интересный, особенно тот…
⚪️ Droid Текущий ассортимент моделей в дроиде весьма интересный, особенно тот факт, что у меня через Lenny на него подписка на год с мелким тарифом.
- #459"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть…
"⚪️ Подводим итоги первого этапа #ddeval #feb2026eval Сейчас у нас есть консолидированные отчеты каждого агента, по 3 отчета на каждого агента.
- #458⚪️ Приступим к эвалу #ddeval #feb2026eval Ну - и к цифрам по отчетам! Это и…
⚪️ Приступим к эвалу #ddeval #feb2026eval Ну - и к цифрам по отчетам! Это и есть, собственно, эвал - количественное выражение некоего эксперимента/оценки.