ARC-AGI-2 решился спустя всего год после публикации Google выпустили специальный обновленный ризонинг мод Gemini 3 Deep Think. Система выбила SOTA сразу на нескольких бенчмарках, в том числе на ARC-AGI-2 и HLE. Напоминаем, что на момент публикации ARC-AGI-2 примерно год назад ведущие модели выбивали на нем максимум 1-2%. У Gemini 3 Deep Think на ARC-AGI-2 скор же составил 84.6%. Принято считать, что бенчмарк «насыщен» или «решен», если побит на >80%. Так что, получается, RIP ARC-AGI-2, ждем третью версию. Ну а Google, конечно, хороши. Помимо AA2 и HLE модель еще завоевала золотую медаль на письменной части международных олимпиад по физике и химии, а также выбила рейтинг 3455 на Codeforces (у Claude Opus 4.6 рейтинг составляет 2352, для сравнения). Мод уже выкатили для подписчиков Google AI Ultra, так что избранные могут даже попробовать модель сами
ARC-AGI-2 решился спустя всего год после публикации Google выпустили…
Из этого канала
- #8733Создатель ARC-AGI Франсуа Шолле заявил, что ARC-AGI-4 уже находится в…
Создатель ARC-AGI Франсуа Шолле заявил, что ARC-AGI-4 уже находится в разработке, а всего версий бенчмарка будет около 7 ARC-AGI-3 – выходит в паблик в марте,…
- #8734Агент накатал на разработчика огромную критическую статью за то, что тот не…
Агент накатал на разработчика огромную критическую статью за то, что тот не принял его PR Один из основных поддерживающих разработчиков matplotlib – Скотт…
- #8735Вам Валентинка от Data Secrets 🩷 В знак нашей любви мы подготовили для вас…
Вам Валентинка от Data Secrets 🩷 В знак нашей любви мы подготовили для вас самые ИИ-шные открытки на четырнадцатое. Отправляйте коллегам, друзьям и AI-вайфам.
- #8727Google DeepMind сделали, возможно, самого мощного ИИ-математика на сегодняшний…
Google DeepMind сделали, возможно, самого мощного ИИ-математика на сегодняшний день Они представили Aletheia – агента, который набрал 91.9% на IMO-ProofBench…
- #8726GLM-5 – новая SOTA в опенсорсе и серьезная заявка от китайцев Z.ai выпустили…
GLM-5 – новая SOTA в опенсорсе и серьезная заявка от китайцев Z.ai выпустили свежую опенсорсную модель, которая тягается с Opus 4.5, Gemini 3 Pro и GPT-5.2.