"Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности: С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие. И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа. Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks __Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li__ Статья: https://arxiv.org/abs/2512.03262 Код: https://github.com/LeiLiLab/susvibes Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking # TL;DR ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах. ПОЧЕМУ это важно: Работа в цифрах показывает риски ""вайб-кодинга"" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью. Подробнее: https://t.me/gonzo_ML_podcasts/1594"