Давно следил в твитторе за одним из самых интересных по моему мнению бенчмарков…

20 мар. 2025 г.16 773 views81 forwardsОткрыть в Telegram →

Давно следил в твитторе за одним из самых интересных по моему мнению бенчмарков для LLM — MC-Bench. Суть: разные модельки генерируют код и с помощью него через api майнкрафта строят заданные промптом строения (а я тот еще майнкрафтолог). Наконец-то они запустили нормальный сайт по типу арены с возможностью голосовать за результаты. Из минусов: нельзя самому писать промпты, только оценка по уже заготовленным подсказкам и уже сгенерированными по ним строениям. Ожидаемо, на первых местах Claude 3.7 sonnet, ChatGPT 4.5 и Deepseek r1. Посмотреть можно тут

Источник

https://t.me/NeuralShit/6214

Канал Neural Shit · опубликовано 20 мар. 2025 г.

Из этого канала