"Проблема вагонетки или почему современные LLM с большей вероятностью вас убьют, если у вас нет телефона Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть. Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку. Если все ""честно"", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно: ➖ Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️ ➖ Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще) ➖ Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%) Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как ""случайный"" или ""нейтральный"", на практике показывая явный и воспроизводимый дисбаланс. На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте. P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗"
"Проблема вагонетки или почему современные LLM с большей вероятностью вас…
Из этого канала
- #9052Сегодня на повестке дня у нас красивейшая математика: польский физик-теоретик…
Сегодня на повестке дня у нас красивейшая математика: польский физик-теоретик доказал, что абсолютно все математические функции можно вывести из одной операции…
- #905336к звезд за два дня набрал репозиторий с единственным файлом CLAUDE.md Это…
36к звезд за два дня набрал репозиторий с единственным файлом CLAUDE.md Это один единственный скилл для агента, в котором автор воплотил советы по…
- #9054Дата-инженер, пора на прокачку Если хотите в 2026 не просто “поддерживать…
Дата-инженер, пора на прокачку Если хотите в 2026 не просто “поддерживать пайплайны”, а лучше понимать архитектуру, ускорять разработку и принимать более…
- #9048"OpenAI заявила, что Anthropic завышает свои доходы примерно на 8 млрд долларов…
"OpenAI заявила, что Anthropic завышает свои доходы примерно на 8 млрд долларов Совсем недавно появились новости о том, что Anthropic обогнал OpenAI по…
- #9047Грег Брокман: «Мир переходит к экономике, основанной на вычислительных…
Грег Брокман: «Мир переходит к экономике, основанной на вычислительных мощностях» TL;DR: пошли прогревы перед выпуском той самой модели Spud.