ARC-AGI 2, фактически, можно признавать решенным: система от стартапа Poetiq выбила ~75% Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность. То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд. Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека. Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу. Код от Poetiq