Получается, что такой результат это в большей степени заслуга Google и OpenAI (GPT-5.2 X-High там вообще какой-то безумный скор показала). Это они натренировали модели, готовили данные, придумывали алгоритмы. Почти наверняка они использовали подходы, схожие с топ-решениями соревнования ARC на Kaggle. Основная фишка там — это сгенерировать огромное множество искусственных примеров задач и учить модель на них в попытке показать как можно больше вариаций паттернов, которые могут встретиться в тестовой выборке. По сути, это просто пайплайн генерации синтетики + обучение на нём, помимо других задач. И поскольку эти пайплайны могут существенно отличаться, то сложно сказать, у какой из команд лучше именно алгоритм обучения рассуждениям. В модель втренировывают все вариации задач. Отсюда ясно, что настоящий инсайд результатов ARC AGI — это наличие алгоритма тренировки и базовой модели, которые позволяют для некоторого класса задач за относительно недлинный промежуток времени очень прокачать качество. Главное что компании должно быть это интересно (а не просто считать буквы в словах). Другими словами, если OpenAI считают, что выполнение задачи X принесёт большую ценность, то они берут, тратят миллионы долларов на сбор и разметку данных, учат модель, то сё, и вот навык существенно прокачивается. Не до 100%, и иногда даже не сразу до человеческого уровня, но скачок заметный. И затем за ~год научиться это делать гораздо более эффективно (не за миллион долларов, а за тысячи). Так что бенчмарки ARC AGI 1 и 2 во многом считаю бесполезными, но при этом некоторым proof-of-concept для проверки алгоритма обучения. Но если задаться целью проверять именно это, то может быть есть куда более интересные и ценные направления? === ARC AGI 3 немного изменит подход, но по мне так это снова банальное усложнение через увеличение количества клеточек. В третьей версии будут интерактивные игры, где система должна делать ходы (прям нажимать вверх-вниз-влево-вправо) и за несколько попыток понять правила игры и пройти несколько уровней. Попробуйте поиграть сами: https://three.arcprize.org/ Пожалуй, это позволит протестировать ещё более длинные контексты (теперь вход в модель для рефлексии - это не одно поле, не набор пар, а длинная череда слепков поля и действий), а также навык выведения правил игры в рамках одной сессии. Но можно ли это проверять как-то по другому, и без, блин, полей в клеточку 60x60, которые занимают 3600 токенов ~= 9 страниц текста на КАЖДЫЙ слепок? А то основные навыки у моделей будут, а потом окажется, что не можем решить задачи из-за ошибок в распознавании пикселей на картинке.