Получается, что такой результат это в большей степени заслуга Google и OpenAI (GPT-5.2 X-High там вообще какой-то безумный скор показала). Это они натренировали модели, готовили данные, придумывали алгоритмы. Почти наверняка они использовали подходы, схожие с топ-решениями соревнования ARC на Kaggle. Основная фишка там — это сгенерировать огромное множество искусственных примеров задач и учить модель на них в попытке показать как можно больше вариаций паттернов, которые могут встретиться в тестовой выборке. По сути, это просто пайплайн генерации синтетики + обучение на нём, помимо других задач. И поскольку эти пайплайны могут существенно отличаться, то сложно сказать, у какой из команд лучше именно алгоритм обучения рассуждениям. В модель втренировывают все вариации задач. Отсюда ясно, что настоящий инсайд результатов ARC AGI — это наличие алгоритма тренировки и базовой модели, которые позволяют для некоторого класса задач за относительно недлинный промежуток времени очень прокачать качество. Главное что компании должно быть это интересно (а не просто считать буквы в словах). Другими словами, если OpenAI считают, что выполнение задачи X принесёт большую ценность, то они берут, тратят миллионы долларов на сбор и разметку данных, учат модель, то сё, и вот навык существенно прокачивается. Не до 100%, и иногда даже не сразу до человеческого уровня, но скачок заметный. И затем за ~год научиться это делать гораздо более эффективно (не за миллион долларов, а за тысячи). Так что бенчмарки ARC AGI 1 и 2 во многом считаю бесполезными, но при этом некоторым proof-of-concept для проверки алгоритма обучения. Но если задаться целью проверять именно это, то может быть есть куда более интересные и ценные направления? === ARC AGI 3 немного изменит подход, но по мне так это снова банальное усложнение через увеличение количества клеточек. В третьей версии будут интерактивные игры, где система должна делать ходы (прям нажимать вверх-вниз-влево-вправо) и за несколько попыток понять правила игры и пройти несколько уровней. Попробуйте поиграть сами: https://three.arcprize.org/ Пожалуй, это позволит протестировать ещё более длинные контексты (теперь вход в модель для рефлексии - это не одно поле, не набор пар, а длинная череда слепков поля и действий), а также навык выведения правил игры в рамках одной сессии. Но можно ли это проверять как-то по другому, и без, блин, полей в клеточку 60x60, которые занимают 3600 токенов ~= 9 страниц текста на КАЖДЫЙ слепок? А то основные навыки у моделей будут, а потом окажется, что не можем решить задачи из-за ошибок в распознавании пикселей на картинке.
Получается, что такой результат это в большей степени заслуга Google и OpenAI…
Из этого канала
- #3210И результаты разных моделей и систем на ARC AGI 2.
И результаты разных моделей и систем на ARC AGI 2.
- #3211Nvidia покупает Groq. Тот самый, который делает чипы для быстрого инференса…
Nvidia покупает Groq. Тот самый, который делает чипы для быстрого инференса LLM. - Это крупнейшая покупка Nvidia за всю историю - $20 млрд.
- #3212Дошли руки почитать статью годовой давности, Cut Your Losses in…
Дошли руки почитать статью годовой давности, Cut Your Losses in Large-Vocabulary Language Models.
- #3208Про ARC-AGI и свою критику этого бенчмарка и мнений его автора, François…
Про ARC-AGI и свою критику этого бенчмарка и мнений его автора, François Chollet (автор Keras), я писал много раз (если пропустили — читать тут, тут, тут, тут…
- #3207Не спите? про ARC-AGI бенчмарк поговорим? Или 🥱?
Не спите? про ARC-AGI бенчмарк поговорим? Или 🥱?