Давно следил в твитторе за одним из самых интересных по моему мнению бенчмарков для LLM — MC-Bench. Суть: разные модельки генерируют код и с помощью него через api майнкрафта строят заданные промптом строения (а я тот еще майнкрафтолог). Наконец-то они запустили нормальный сайт по типу арены с возможностью голосовать за результаты. Из минусов: нельзя самому писать промпты, только оценка по уже заготовленным подсказкам и уже сгенерированными по ним строениям. Ожидаемо, на первых местах Claude 3.7 sonnet, ChatGPT 4.5 и Deepseek r1. Посмотреть можно тут
Давно следил в твитторе за одним из самых интересных по моему мнению бенчмарков…
Из этого канала
- #6215Нашёл канал, где показывается как в диджитале, геймдеве, нейронках и других…
Нашёл канал, где показывается как в диджитале, геймдеве, нейронках и других сферах (типа архитектуры или мебели вообще) работают с конкретно русской эстетикой.
- #6224"Cloudflare представила интересное решение против ботов и AI-краулеров — ""AI…
"Cloudflare представила интересное решение против ботов и AI-краулеров — ""AI Labyrinth"".
- #6225ChatGPT только что полностью провалил экзамен по мемологии :(
ChatGPT только что полностью провалил экзамен по мемологии :(
- #6213Шат ап энд тэйк май мани!!! Реально, очень крутое зеркало, теперь мне тоже надо…
Шат ап энд тэйк май мани!!! Реально, очень крутое зеркало, теперь мне тоже надо такое
- #6212Теперь роботы-пылесосы будут выглядеть так. Киберпанк, который мы зслужили.
Теперь роботы-пылесосы будут выглядеть так. Киберпанк, который мы зслужили.