"Заметки с полей - 2: Про ответственность (продолжение поста) Узкое место… — @ProductsAndStartups

"Заметки с полей - 2: Про ответственность (продолжение поста) Узкое место разработки смещается. Раньше оно было в делании — написать код, реализовать, отладить. AI делает этот шаг кратно дешевле. И сразу обнажается следующее узкое место — верификация. Проверить, что AI сделал, что надо. Не накопил тех-долг. Не пропустил edge-кейс, который завтра упадёт в проде. CEO смотрит на одну часть этого уравнения: делать стало дешево —> давайте делать больше. CTO смотрит на противоположную и видит: верифицировать не стало дешевле, а кода генерится больше, и это всё надо ревьюить мне и моей команде. Оба правы, но каждый со своей колокольни. Вспомните три категории задач из прошлого поста: a) внутренние тулзы, прототипы, ""интегрировать поставщика по образу и подобию"" b) customer-facing фичи и продукты c) платежи, безопасность, данные клиентов С точки зрения ""сделать"" — в (a) AI почти не уступает человеку, в (b) подбирается всё ближе, в (c) что-то уже может точно. Но с точки зрения ""проверить и взять на себя ответственность за результат"" - все сильно печальнее. Не возьмет же Anthropic или OpenAI за это ответственность? Или CEO, который навайбкодил? И поэтому CTO интуитивно защищает правильную территорию, когда говорит ""а кто будет отвечать?"". Это не ""стэнфордское исследование сказало"" — это вопрос про accountability. Если не я писал код, то как я возьму ответственность? Особенно, если я его не особо понимаю (comprehension debt). Итого - главный вопрос: а кто будет брать ответственность? Я думаю, что маржу в софте всё больше будет забирать не тот, кто пишет код, а тот, кто гарантирует поведение/результат. Делать становится дёшево — стоимость стремится к нулю. За что платить премию? За умение обуздать AI, за готовность взять ответственность, за гарантию работы агента. И это не теория. В феврале ElevenLabs объявили первую публичную страховку, покрывающую действия AI-агентов, разработанных на их платформе. Важно: продает страховку ElevenLabs, но андеррайтит третья сторона — Artificial Intelligence Underwriting Company (судя по их сайту они страхуют потери от AI до $50M). Они прогнали агентов через 6К adversarial-тестов в 14 категориях рисков (галлюцинации, prompt injection, утечки, несанкционированные действия) и выдали сертификацию AIUC-1, под которую страховщик готов написать полис. Собственно, теперь клиенты ElevenLabs могут застраховать себя от последствий действий агентов, построенных на ее платформе. Небольшое уточнение: эта сертификация дает 75% апрува, все таки надо еще допройти некоторые чеки, что в принципе ожидаемо. К чему я это все? Имхо CEO и CTO надо договориться об ответах на вопросы: 1) Какова наша структура верификации работы AI? Если только люди, то скорее всего ускорения в аутпуте ждать не стоит, возможно даже замедление 2) Что мы можем сделать чтобы (хотя бы часть) этой верификации автоматизировать? Harness, дизайн система, эвалы, системы быстрой обратной связи, и тп. И, кстати, откуда бюджет на это будем брать? 3) Можем ли мы обернуть наше умение верифицировать/страховать риски работы агента в конкурентное преимущество: оплата за результат, страховка, что то еще?"

Из этого канала