АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк… — @seeallochnaya

АМОГУС, но вместо игроков — LLM'ки: так выглядит новый интерактивный бенчмарк от 4wallai. Among AIs оценивает мышление и дедукцию, навыки обмана и убеждения, и Theory of Mind (как одна модель может подумать о том, о чём думает другая). Авторы провели 60 игр и считали количество побед за мирных и за импосторов (предателей). Наибольшее количество побед там и там — у GPT-5; Opus'а нет :( на втором месте Sonnet 4, дальше Kimi K2. Видео-запись одной игры: https://youtu.be/1dxJaEyPUYw Блогпост: https://www.4wallai.com/amongais , там можно почитать транскрипты игр, посмотреть, как модели «оправдываются» и выкручиваются, пытаясь обмануть других и доказать, что они — мирные. Плюс авторы проанализировали результаты голосований за выкидывание игрока, и получили инсайты в духе «GPT-5 причиняет меньше всех вреда команде» и «GPT-5 не говорит подозрительно, и потому не подвергается обвинениям».

Из этого канала