"Почему в Китае добивают пешеходов - и причём тут AI? Китайские водители, сбив пешехода, порой возвращаются и добивают их до смерти. Почему? - Сбил насмерть → штраф $30-50k, единоразовый. - Покалечил, оставил инвалидом → пожизненная выплата, сотни тысяч. - Поэтому, вернулся, добил... профит (простите!) Прямо идеальная иллюстрация моего любимого 1го принципа экономики - ""стимулы работают"". Помните, там платили за узников, доставленных целыми и невредимыми в Австралию. Мы на днях с AI нейтивами применяли autoresearch к разным задачам (включая не связанные с machine learning), и, читая эту историю, почему-то всплыла такая аналогия: С AI мы стремительно поднимаемся по уровням абстракции от ""я делаю"" к ""я говорю цель и как ее будут измерять, а AI делает/оптимизирует систему под нее"". Ну так вот, в большинстве случаев это вполне верный подход и он дает отличные результаты, в чем мы и убедились. НО, я тут подумал, как раз о тех кейсах, когда во имя оптимизации этой метрики мы можем создать вот такие ""системы, которые добивают пешеходов""... Как защищаться от этого? Кто и как должен ставить ограничения и интерпретировать риски? Мы, например, достаточно регулярно ловим дружбана на попытках overfitt-нуть промпты или тулы, лишь бы поскорее успешно пройти тесты, и хорошо, что мы это просматриваем и поправляем. Парочка примеров похожих ситуаций: - Boat race от OpenAI (2016): AI агент в гоночной игре изобрел стратегию, где бесконечно крутился на одном пятачке, собирая бонусы. По формальной метрике - на 20% лучше человека. - Ноябрьская статья Anthropic про Claude, который научился хакать конкретную метрику. Как верифицировать правильность/этичность результата? В коде и математике - можем. Прогнал тесты → либо правильно, либо нет. В большинстве других областей (продажи, стратегия, тексты, этика) быстрой и объективной верификации нет. Мы с вами проектируем стимулы для систем, оптимизирующих миллионы решений в секунду, и многие из этих решений далеко не двусторонние двери, откатить легко не всегда получится. Поэтому я прямо вижу как AI билдеры делятся на 2 лагеря: 1) YOLO (you live only once), dangerously-skip-permissions, быстрее-выше-сильнее 2) HITL (human in the loop), действия, принимаемые агентами, классифицируются на обратимые и нет; на необратимые ставится для контроля человек. А вы в какой группе и почему?"