⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест для эвала агентов В первых двух версиях задачки были статичные. А тут фишка как раз в динамике: бенчмарк полностью состоит из игровых сред. Каждая из игр устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100% (требуются только базовые знания). А вот агенты с треском проваливаются и в основном выбивают меньше 1 процента. Вот здесь примеры, как тест проходит Gemini 3.1: с некоторыми задачками она справляется нормально, с некоторыми – очень плохо. Самостоятельно поиграть можно здесь. Ключевые проверяемые способности – самостоятельное исследование, быстрое обучение, адаптация к новым ситуациям, умение планировать и гибко перестраиваться. В общем, команда продолжает выискивать именно то, что делает интеллект человека по-настоящему сильным, и что пока недоступно моделям. Ну и стартовало традиционное соревнование по обновленной версии. Призовой фонд на этот раз – 2 миллиона долларов. Хотя больше интересно, когда опубликуют лидерборд фронтиров
⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест…
Из этого канала
- #8928Нашелся лидерборд: https://arcprize.org/leaderboard Кратко: – Gemini 3.1 Pro:…
Нашелся лидерборд: https://arcprize.org/leaderboard Кратко: – Gemini 3.1 Pro: 0.2% за 2.2к$ – Opus 4.6: 0.2% за 8.9к$ (!) – GPT-5.4: 0.3% за 5.2к$ – Grok 4.20:…
- #8929Отрывок из новой статьи Теренса Тао ⬆️ А вот отрывок из сопутствующего блога:…
Отрывок из новой статьи Теренса Тао ⬆️ А вот отрывок из сопутствующего блога: Один из аргументов для теоремы 1.4 был предложен мне ChatGPT, так как я ранее не…
- #8931Вайбкодить теперь можно даже виртуальную реальность Google выкатили Vibe Coding…
Вайбкодить теперь можно даже виртуальную реальность Google выкатили Vibe Coding XR – платформу для генерации AR/VR интерфейсов из промпта.
- #8926MWS Cloud запустила MWS GPT Model Hub - сервис по работе с большими языковыми…
MWS Cloud запустила MWS GPT Model Hub - сервис по работе с большими языковыми моделями.
- #8925"OpenAI закончила претрейн своей следующей модели, а еще в стартапе появился…
"OpenAI закончила претрейн своей следующей модели, а еще в стартапе появился отдел AGI Deployment The Information получили доступ к нескольким внутренним…