"Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код с точки зрения безопасности: С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие. И вот как раз прилетела статья в тему. Если кратко про ситуацию — полная жопа. Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks __Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li__ Статья: https://arxiv.org/abs/2512.03262 Код: https://github.com/LeiLiLab/susvibes Ревью: https://arxiviq.substack.com/p/is-vibe-coding-safe-benchmarking # TL;DR ЧТО сделали: Представили SusVibes — бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах. ПОЧЕМУ это важно: Работа в цифрах показывает риски ""вайб-кодинга"" (vibe coding) — делегирования реализации агентам с минимальным контролем. Результаты пугающие: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью. Подробнее: https://t.me/gonzo_ML_podcasts/1594"
"Недавно задавался вопросом, есть ли бенчмарки для вайбкодинга, оценивающие код…
Из этого канала
- #4335Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из…
Ещё про код — вышел огромный (300+ страниц) обзор про кодовые модели. Из прикольного, законы скейлинга для разных языков программирования отличаются.
- #4339Модели продолжают подвозить и подвозить https://z.ai/blog/glm-4.6v…
Модели продолжают подвозить и подвозить https://z.ai/blog/glm-4.6v Мультимодальные GLM-4.6V (106B) и GLM-4.6V-Flash (9B) с поддержкой тулов.
- #4341Ещё одна работа про то, как агенты косячат. На этот раз исследовательские. В…
Ещё одна работа про то, как агенты косячат. На этот раз исследовательские. В целом работа из серии, когда целиком читать неинтересно, но саммари прочитать…
- #4331Прикольная визуализация процесса обучения, мне нравится
Прикольная визуализация процесса обучения, мне нравится
- #4327А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про…
А между тем наш старый знакомый Ashish Vaswani (соавтор оригинальной работы про трансформер) выпустил новую штуку.