Последний экзамен человечества Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно. На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы. Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят. Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3. Пейпер Бенчмарк Сайт проекта @ai_newz
Последний экзамен человечества Новый бенчмарк, на котором все наилучшие LLM…
Из этого канала
- #3634"OpenAI показали Operator - своего первого агента Он может полноценно…
"OpenAI показали Operator - своего первого агента Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д.
- #3635"Kling Elements: есть ли смысл? Я уже писал про генерацию видео с заданныит…
"Kling Elements: есть ли смысл? Я уже писал про генерацию видео с заданныит объектами, когда вышла пика 2.0. Но пика, мягко говоря, слабовата.
- #3637Мнение по Operator от ChatGPT на основе дня использования: - это все еще ранний…
Мнение по Operator от ChatGPT на основе дня использования: - это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза…
- #3630"Google продолжает эксперименты с reasoner моделями. Компания обновила свою…
"Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет…
- #3629"😮Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на…
"😮Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на $500 млрд Инвестиции в размере $500B – это очень много денег, и составляет 1.7%…