Не доверяйте AI-агентам писать документацию Ситуация: провёл ряд экспериментов, написали с агентами рабочий код, попросил задокументировать что работает, что нет, чтобы можно было воспроизводить эти результаты в будущем системно. Открыл эти документы почитать, а там куча фактических ошибок и галлюцинаций Циклы «аудит→фикс→аудит→фикс» силами агентов не помогли. С этого момента стал все документы проверять вручную и обсуждать с агентом любой непонятный момент. А потом еще прогонять тесты: запускаю агентов, которых прошу воспроизвести решение по документам, а затем отдельный агент сверяет результат с исходником, который документировали. Это занимает время, но по такой документации потом можно нормально воспроизвести результат Предполагаю, что огромный объём галлюцинаций в таких задачах связан с тем, что в обучающих данных модели таких текстов не было и быть не могло, поэтому при формировании каждого нового слова в документе элемент рандома выше обычного
Не доверяйте AI-агентам писать документацию Ситуация: провёл ряд экспериментов,…
Из этого канала
- #1289Столкнулся в разработке с забавным термином, названным в честь птички канарейки…
Столкнулся в разработке с забавным термином, названным в честь птички канарейки — canary test/canary deployment.
- #1290Получите до 70 500 ₽ за рекомендацию сервисов Т-Банка. Станьте партнером…
Получите до 70 500 ₽ за рекомендацию сервисов Т-Банка. Станьте партнером Т-Банка: рекомендуйте сервисы для бизнеса и получайте до 70 500 ₽ за каждого клиента.
- #1291Что под капотом в моём маленьком стартапчике Прям дофига всего. На скриншоте…
Что под капотом в моём маленьком стартапчике Прям дофига всего. На скриншоте собрал основной набор технологий, которые заложены сейчас в проект Я ничего не…
- #1286"А что на самом деле даст бизнесу запуск в МАКС? Новый канал роста и ранний…
"А что на самом деле даст бизнесу запуск в МАКС? Новый канал роста и ранний доступ к аудитории или хаотичный тест, где сложно понять, что работает, а что…
- #1285Вот такой спам разве работает в B2B? Мне кажется только убивает в хлам…
Вот такой спам разве работает в B2B? Мне кажется только убивает в хлам репутацию на узком рынке. Зато тренд соблюли: AI-аутрич😂