"Создатели ARC-AGI объявили, что начали работать над четвертой и пятой версиями бенчмарка Напоминаем: – ARC-AGI 1: простенькие для человека пазлы в формате ""дано несколько примеров цветных сеток, продолжи логический ряд"". Проверяется способность к минимальному абстрактному рассуждению и обобщению. Примеры тут. – ARC-AGI 2: тот же формат цветных сеток, но задачи заметно сложнее даже для человека (средний уровень людей – 60%). Выше композиционная сложность + есть защита от простого перебора. Примеры. – ARC-AGI 3: уже не статичные паззлы, а интерактивные игровые среды (тестируют уже не LLM, а агентов). И агент должен воспринимать, планировать и действовать много шагов подряд в новых незнакомых условиях. Проверяется способность к адаптации и гибкости мышления. Примеры. ! Официально ARC-AGI 3 еще не вышел, его выпускали только в превью. Вчера создатели наконец объявили, что собираются запустить бенчмарк в марте, а также рассказали, что начинают работать над следующими версиями 4 и 5. Пока нет ни слова о том, что это будет. Но, вероятно, нужно снова ожидать какую-то игровую историю, только еще более усложненную."