ARC-AGI-2 решился спустя всего год после публикации Google выпустили специальный обновленный ризонинг мод Gemini 3 Deep Think. Система выбила SOTA сразу на нескольких бенчмарках, в том числе на ARC-AGI-2 и HLE. Напоминаем, что на момент публикации ARC-AGI-2 примерно год назад ведущие модели выбивали на нем максимум 1-2%. У Gemini 3 Deep Think на ARC-AGI-2 скор же составил 84.6%. Принято считать, что бенчмарк «насыщен» или «решен», если побит на >80%. Так что, получается, RIP ARC-AGI-2, ждем третью версию. Ну а Google, конечно, хороши. Помимо AA2 и HLE модель еще завоевала золотую медаль на письменной части международных олимпиад по физике и химии, а также выбила рейтинг 3455 на Codeforces (у Claude Opus 4.6 рейтинг составляет 2352, для сравнения). Мод уже выкатили для подписчиков Google AI Ultra, так что избранные могут даже попробовать модель сами