"Почему в Китае добивают пешеходов - и причём тут AI? Китайские водители, сбив пешехода, порой возвращаются и добивают их до смерти. Почему? - Сбил насмерть → штраф $30-50k, единоразовый. - Покалечил, оставил инвалидом → пожизненная выплата, сотни тысяч. - Поэтому, вернулся, добил... профит (простите!) Прямо идеальная иллюстрация моего любимого 1го принципа экономики - ""стимулы работают"". Помните, там платили за узников, доставленных целыми и невредимыми в Австралию. Мы на днях с AI нейтивами применяли autoresearch к разным задачам (включая не связанные с machine learning), и, читая эту историю, почему-то всплыла такая аналогия: С AI мы стремительно поднимаемся по уровням абстракции от ""я делаю"" к ""я говорю цель и как ее будут измерять, а AI делает/оптимизирует систему под нее"". Ну так вот, в большинстве случаев это вполне верный подход и он дает отличные результаты, в чем мы и убедились. НО, я тут подумал, как раз о тех кейсах, когда во имя оптимизации этой метрики мы можем создать вот такие ""системы, которые добивают пешеходов""... Как защищаться от этого? Кто и как должен ставить ограничения и интерпретировать риски? Мы, например, достаточно регулярно ловим дружбана на попытках overfitt-нуть промпты или тулы, лишь бы поскорее успешно пройти тесты, и хорошо, что мы это просматриваем и поправляем. Парочка примеров похожих ситуаций: - Boat race от OpenAI (2016): AI агент в гоночной игре изобрел стратегию, где бесконечно крутился на одном пятачке, собирая бонусы. По формальной метрике - на 20% лучше человека. - Ноябрьская статья Anthropic про Claude, который научился хакать конкретную метрику. Как верифицировать правильность/этичность результата? В коде и математике - можем. Прогнал тесты → либо правильно, либо нет. В большинстве других областей (продажи, стратегия, тексты, этика) быстрой и объективной верификации нет. Мы с вами проектируем стимулы для систем, оптимизирующих миллионы решений в секунду, и многие из этих решений далеко не двусторонние двери, откатить легко не всегда получится. Поэтому я прямо вижу как AI билдеры делятся на 2 лагеря: 1) YOLO (you live only once), dangerously-skip-permissions, быстрее-выше-сильнее 2) HITL (human in the loop), действия, принимаемые агентами, классифицируются на обратимые и нет; на необратимые ставится для контроля человек. А вы в какой группе и почему?"
"Почему в Китае добивают пешеходов - и причём тут AI? Китайские водители, сбив…
Из этого канала
- #1722"Применяем Autoresearch за пределами ML В марте я разбирал autoresearch…
"Применяем Autoresearch за пределами ML В марте я разбирал autoresearch Карпатого и обещал адаптировать под ""приземлённые задачи"" —> на днях устроили с ai…
- #1723Карьерный совет от Andrew Ng Студент Стэнфорда получил оффер от одной из…
Карьерный совет от Andrew Ng Студент Стэнфорда получил оффер от одной из топовых AI компаний; но конкретную команду назвать отказались до принятия оного.
- #1724Куда утекают мои Claude Code токены? Скилл token-audit В последнее время…
Куда утекают мои Claude Code токены? Скилл token-audit В последнее время муравьи все чаще закручивают гайки с лимитами и я стал регулярнее упираться в…
- #1720Отрывок из 1й встречи курса по системному мышлению - enjoy!…
Отрывок из 1й встречи курса по системному мышлению - enjoy! https://www.youtube.com/watch?v=pJ0BmKLWIEQ
- #1719"Коносукэ Мацусита, основатель Panasonic - кстати, почитайте его книгу про…
"Коносукэ Мацусита, основатель Panasonic - кстати, почитайте его книгу про миссию бизнеса - любил на собеседовании спрашивать: вы считаете себя удачливым? И…