⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval… — @deksden_notes

⚪️ Пост-анализ эвала на ревью по Priority классификации #ddeval #feb2026eval Решил еще немного помучать агента статистикой. На сей раз посмотреть сколько проблем категорий P0-P4 обнаружили агенты. 🟢 Все знают что такое P0-P4? Это стандартная классификация выявленных проблем по критичности (P- как раз от Proprity). Все модели знаю про эту классификацию и неплохо ею пользуются. Вот вам пучок теории: 0️⃣ P0 (Critical/Blocker): Критическая ошибка. Блокирует выкладку (релиз). Код нельзя мержить ни в коем случае, так как он сломает билд, нарушит безопасность или уронит систему. 1️⃣ P1 (High): Важная правка. Ошибка в логике, отсутствие тестов для важного функционала или серьезное нарушение архитектуры. Исправить нужно обязательно перед мержем. 2️⃣ P2 (Medium/Normal): Стандартное замечание. Мелкие баги, нарушение стайлгайда или неоптимальный (но рабочий) код. Обычно ожидается исправление, но в экстренных случаях можно обсудить перенос в техдолг. 3️⃣ P3 (Low): Пожелание (Nitpick). Незначительные опечатки в комментариях или предложения по микро-оптимизации. Исправление на усмотрение автора, мержить можно и без них. 4️⃣ P4 (Trivial/Inquiry): Вопрос или долгосрочное предложение. «А почему здесь так?», «В будущем стоит это переписать». Не требует немедленных действий. 👉 Простая, но удобная классификация. Посмотрите на табличку в картинке! напомню: • G=GLM • K=Kimi • M=Minimax • O=Opus • GM=Gemini • C=Codex (gpt 5.2) любопытные результаты: • блокеры находят ВСЕ модели, не только фронтир • киты по совокупности нашли больше важных косяков, чем фронтир • напомню, что не все находки были верифицированы, и у фронитра процент верификации значительно выше ИТОГО: все модели нам нужны, все модели нам важны! @deksden_notes

Из этого канала