Давно следил в твитторе за одним из самых интересных по моему мнению бенчмарков для LLM — MC-Bench. Суть: разные модельки генерируют код и с помощью него через api майнкрафта строят заданные промптом строения (а я тот еще майнкрафтолог). Наконец-то они запустили нормальный сайт по типу арены с возможностью голосовать за результаты. Из минусов: нельзя самому писать промпты, только оценка по уже заготовленным подсказкам и уже сгенерированными по ним строениям. Ожидаемо, на первых местах Claude 3.7 sonnet, ChatGPT 4.5 и Deepseek r1. Посмотреть можно тут