АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai. Among AIs оценивает мышление и дедукцию, навыки обмана и убеждения, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей). Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2. Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям».
АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк…
Из этого канала
- #2906«...Первоначально некоторые функции будут доступны только Pro-подписчикам, а за…
«...Первоначально некоторые функции будут доступны только Pro-подписчикам, а за некоторые новые продукты будет взиматься дополнительная плата.» Созвонились с…
- #2907WebDancer: Towards Autonomous Information Seeking Agency Вторая статья в цикле…
WebDancer: Towards Autonomous Information Seeking Agency Вторая статья в цикле разборов Tongyi DeepResearch (первая разобрана тут).
- #2908Дальше на основе этих данных хочется обучить свою модель. Так как на дворе…
Дальше на основе этих данных хочется обучить свою модель. Так как на дворе весна 2025-го, и DeepSeek R1 уже вышла, и рассуждающие модели на хайпе, то хочется…
- #2904Вместе с этим Sama выпустил эссе «Изобилие интеллекта», оригинал тут, а перевод…
Вместе с этим Sama выпустил эссе «Изобилие интеллекта», оригинал тут, а перевод — ниже: Рост использования AI-сервисов был поразительным; мы ожидаем, что в…
- #2903Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и…
Абсолютный чемпион мира в супертяжелом весе по привлечению инвестиций и масштабированию Sam Altman заявил о своём следующем шаге: OpenAI заключили…