"⚪️ Февральский eval-2 (1): dd-review #ddeval #feb2026eval2 Февраль выдался урожайным месяцем! Всякого вышло масса - только успевай тестировать! Вот и не успеваю)) Так как я зае- устал руками гонять эвалы, а планов на тесты наросовалось много, возникла острая необходимость автоматизации. Поэтому потрачено несколько дней, эвал автоматизирован. Что сделал: был препарирован dd-flow, вытащен движок флоу в отдельную систему, образовано несколько служебных флоу: * review: ревью по заданному набору фокусов * dedupe: дедупликация найденных issues и фильтр уникальных, кросслинк дубликатов (это чтобы все не верифицировать тотально по несколько раз) * verify: верификация новых уников, подтверждение что issue имеет место быть. Так как issues получилось много, сделали небольшую базу под эту штуку и небольшой движок отчетов, чтобы легче делать срезы. Получившаяся системка гордо названа dd-review. Чтобы не рулить ею руками я первым приоритетом сделал cli и буду рулить ею через codex UI )) То есть промптами. Маркируем находки (issues) через систему приоритетов Priority: - p0: критический инцидент: эксплойт/брешь, утечка секретов, потеря/порча данных, детерминированный crash или hard-deadlock в обычном использовании - p1: очень высокий риск для пользователей, серьёзная ошибка корректности/надёжности, опасная конкурентность/abort, сломанные инварианты состояния. - p2: существенная проблема: заметные gaps корректности, крупные архитектурные/поддерживаемостные дефекты, значимая деградация производительности - p3: средние дефект|ы: слабая наблюдаемость, проблемные edge cases, test gaps, smell’ы, которые пока не ломают систему напрямую. - p4: минорные замечания: стиль, небольшие рефакторы, косметические улучшения документации. Какие фокусы у ревью - придумал 10 профилей: - correctness_invariants — корректность и инварианты - type_safety — типобезопасность - security_backend — безопасность backend/API/DB - security_frontend — безопасность frontend/UI - api_contracts_backend — контракты API и данных - performance_memory — производительность и память - concurrency_state — конкурентность и состояние - maintainability_smells — поддерживаемость и code smells - error_handling_reliability — обработка ошибок и надёжность - logging_observability — логирование и наблюдаемость Кому интересно - можно расписать фокусы поподробнее, но там нету космических технологий, простое описание по каким вопросам ""трясти"" кодовую базу. Широкое исследование берет ВСЕ указанные профили - конфиг называется предсказуемо focus_all. Какие движки прикручены к dd-flow на текущий момент: - codex_sdk: Codex CLI - opencode_sdk: OpenCode - claude_sdk: Claude Code через Agents SDK - gemini_cli: Gemini CLI - droid_cli: Droid CLI - qwen_cli: Qwen CLI - iflow_cli: iFlow CLI Ассортимент движков отражает мои запасы подписок/аккаунтов в разных системах, где мне может потребоваться чего то гонять. В общем, для эвалов соорудил такую вот упряжку! Поря ее гонять))) @deksden_notes"
"⚪️ Февральский eval-2 (1): dd-review #ddeval #feb2026eval2 Февраль выдался…
Из этого канала
- #497"⚪️ Февральский eval-2 (3) : увеличиваем компьют! #ddeval #feb2026eval2 Итак,…
"⚪️ Февральский eval-2 (3) : увеличиваем компьют! #ddeval #feb2026eval2 Итак, следующий этап и план эксперимента: а насколько изменятся результаты, если мы…
- #498⚪️ Февральский eval-2 (4): добавляем Gemini 3.1 в список #ddeval #feb2026eval2…
⚪️ Февральский eval-2 (4): добавляем Gemini 3.1 в список #ddeval #feb2026eval2 Итак, Gemini 3.1 в эвале.
- #499⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом #ddeval #feb2026eval2 ▶️…
⚪️ Февральский eval-2 (5): Gemini 3.1 Pro с компьютом #ddeval #feb2026eval2 ▶️ Ну вот не выдержал я, да.
- #495⚪️ Февральский eval-2 (2) : тестируем QWEN 3.5 Plus #ddeval #feb2026eval2 ▶️…
⚪️ Февральский eval-2 (2) : тестируем QWEN 3.5 Plus #ddeval #feb2026eval2 ▶️ Напомню, что это эвал на широкий поиск issues не очень подходит для выводов о…
- #494"⚪️ DISTILgate ! ~~Антропики, китай и Маск~~ Прикольно. Тут антропики подняли…
"⚪️ DISTILgate ! ~~Антропики, китай и Маск~~ Прикольно. Тут антропики подняли шум что киты дистилят клода в промышленных масштабах.