⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест… — @data_secrets

⚡️ Вышел ARC-AGI-3 – новая версия бенчмарка Шолле и первый интерактивный тест для эвала агентов В первых двух версиях задачки были статичные. А тут фишка как раз в динамике: бенчмарк полностью состоит из игровых сред. Каждая из игр устроена так, что ее правила, цели и механики неизвестны участнику заранее. Человек справляется с такими задачками легко, с абсолютным скором 100% (требуются только базовые знания). А вот агенты с треском проваливаются и в основном выбивают меньше 1 процента. Вот здесь примеры, как тест проходит Gemini 3.1: с некоторыми задачками она справляется нормально, с некоторыми – очень плохо. Самостоятельно поиграть можно здесь. Ключевые проверяемые способности – самостоятельное исследование, быстрое обучение, адаптация к новым ситуациям, умение планировать и гибко перестраиваться. В общем, команда продолжает выискивать именно то, что делает интеллект человека по-настоящему сильным, и что пока недоступно моделям. Ну и стартовало традиционное соревнование по обновленной версии. Призовой фонд на этот раз – 2 миллиона долларов. Хотя больше интересно, когда опубликуют лидерборд фронтиров

Из этого канала