"2. В другом примере качество по одной из метрик снова стагнировало на плато, я… — @gonzo_ML

"2. В другом примере качество по одной из метрик снова стагнировало на плато, я попросил модель разобраться. Она обнаружила, что в дропауте используется всегда один и тот же random seed (потому что в JAX функции работы со случайными числами требуют передачи сида в виде ключа извне -- чтобы быть функционально чистыми -- а в коде оно не передавалось и использовалось какое-то дефолтное из одного места). Это конечно странный косяк, хорошо бы чтобы модель знала как верно использовать разные функции. Но ещё более интересный косяк в том, что в модели не было дропаута вообще, ни в оригинальной, ни в переписанной. То, что она там нашла и предлагала пофиксить, было галлюцинацией галлюцинации. В итоге ""пришёл муж и переделал всё по-своему"". И я ещё не знаю, сколько там других скользких мест в коде, я его внимательно не валидировал. Надо по-хорошему, но этот эксперимент я гоняю в условиях отсутствия свободного времени, так что получается лишь несколько раз в день заглянуть и дать новые рекомендации. Как альтернатива здесь только не сделать этот эксперимент ни в каком виде вообще. Так что по чистому затраченному времени не знаю был бы выигрыш или нет, но по суммарному эффекту он точно есть -- без (в данном случае) Antigravity я бы просто не сделал это совсем, потому что не нашёл бы времени. В целом, конечно, весёлая деятельность -- сам накосячил, сам исправил. Постоянная занятость! Хорошо хоть сам отлаживать теперь умеет без постоянного копипаста туда-сюда. Если разрешить запускать скрипты самостоятельно, то вполне сносно уже получается, модель идёт по плану, включающему до 60 шагов -- создаёт проверочные скрипты, тестовые датасеты, запускает, анализирует ошибки и прочее. No more copy-paste! Но этого всего пока недостаточно. Это в конечном счёте __твой__ зоркий глаз должен найти проблему! Я активно использую модели для перевода постов в блог, а теперь ещё и для автоматической генерации ревью. У меня огромный массив автоматических проверок и своя конституция aka гайд про то, что должно быть в посте и чего там не должно быть, какие проверки сделать, какие из них сделать дважды или трижды. Но я всё равно потом вычитываю пост вручную (вглазную), чтобы убедиться, что всё верно. Каких-то радикальных проблем я за несколько месяцев не нашёл, но несколько неточных формулировок за это время исправил, а также гору просочившихся галлюцинаций, в основном по части ссылок. Но если блог-пост я ещё могу прочитать, и подкаст худо-бедно тоже могу прослушать, то вот на большую сгенерённую кодовую базу требуется сильно больше времени, которого обычно нет. Для кода явно нужны свои промпты с принципами, и наверняка кто-то их уже собирает (поделитесь, если нашли для себя что-то рабочее). Нужно, чтобы модель создавала документацию. Не столько для человека, сколько для самой же себя, когда будешь новый чат или агента запускать. Нужны обязательно тесты и прочие автоматические проверочные сценарии, условно всё то же, что могло бы пригодиться для RLVR. Но в отличие от классических юнит-, интеграционных и иногда присутствующих перформанс-тестов, нужно явно больше, особенно если вы кодите что-то в области около ML -- различные проверки качества и детекция аномалий в обучающем процессе. С вайбкодингом нужны ещё и постоянные security аудиты. Хотя эта часть, по идее, должна на модель лучше ложиться, чем на людей. Среднему человеку анрил следить за всеми актуальными уязвимостями, да и даже держать постоянно в голове десятки практик секьюрного программирования тоже задача не для слабых. В этом смысле, я бы ожидал, что хорошая с точки зрения безопасности кода модель + система, реализующая полноценный SSDLC, была бы одним из наиболее полезных решений. Есть уже какой-то стартап с таким фокусом? Не знаю, насколько текущие копайлоты, курсоры и прочие хороши с этой точки зрения, наверняка уже проводились какие-то сравнения, но мимо меня не пролетали пока. Поделитесь, если видели хорошие."

Из этого канала