Про ARC-AGI и свою критику этого бенчмарка и мнений его автора, François… — @seeallochnaya

Про ARC-AGI и свою критику этого бенчмарка и мнений его автора, François Chollet (автор Keras), я писал много раз (если пропустили — читать тут, тут, тут, тут и тут). Бенчмарк состоит из нескольких сотен визуальных головоломок с квадратиками разного цвета на сетке. Для каждой задачи дано 2-3 примера некоторого преобразования было -> стало, и предоставлен новый пример, для которого модели или системе нужно предсказать, каким должен быть результат. Для людей задачки достаточно простые — средний человек почти сходу решает 80%, а вот алгоритмы 3-4 летней давности едва ли брали двузначные процентов. С появлением рассуждающих моделей ARC-AGI 1 пал — o3-preview, представленная на декабрьском стриме, решала задачи лучше среднего человека. OpenAI пояснили, что модели учились на публично доступной части бенчмарка (что не запрещено — он для этого и дан), а организаторы добавили, что на решение затратили, по их подсчётам, миллион долларов в API-кредитах за LLM, потому что для каждой задачи o3-preview генерировала 1024 решения, а затем отсекала неправильные (не работающие для 2-3 данных примеров) и выбирала 2 самых частых ответа. Вот несколько цитат из оригинальной статьи 2019-го года, чтобы вспомнить контекст: — Мы утверждаем, что ARC может быть использован для измерения человекоподобной формы общего подвижного интеллекта и что он позволяет проводить честные сравнения общего интеллекта между ИИ и людьми — Мы постулируем, что существование программы, решающей ARC на уровне человека означало бы способность создавать ИИ на основе демонстраций (требуя лишь горстку примеров для спецификации сложной задачи) для решения широкого круга понятных человеку проблем (тут сложно не согласиться) — Насколько нам известно, к ARC невозможно подступиться с помощью какой-либо существующей техники машинного обучения (включая обучение нейросетей) из-за его фокуса на широком обобщении и обучении на малом количестве примеров Очень долго автор ходил с важным видом и говорил, что нейросети тут работать не будут. Потом пришли LLM и он говорил то же самое про них. Поверить, что o3-preview смогла решить было настолько сложно, что авторам пришлось придумывать много глупых ухищрений, включая обзывание LLM symbolic reasoners. У меня много критики и к бенчмарку, и к позиции авторов, но самое главное было то, что, как мне казалось, бенчмарк не решался LLM скорее из-за ограничения в работе с форматом поля из клеточек, которое к тому же требует очень длинного контекста (с которым модель хорошо работает). Невозможность решить задачу не являлось для меня аргументом к не-интеллекту LLM, так как проявление навыков было затруднено этими двумя вещами. И вот когда ARC 1 побили, выпустили ... ARC 2. Что в нём изменилось? Тезисно: — ... сделали сетку с клеточками большего размера (так что теперь нужно ещё больше токенов -> длиннее контекст) — ... больше объектов в сетке — многие задачи «сложнее», так как требуют комбинацию из 2-3 паттернов, а не 1 (произошёл классический goalpost moving, но авторы это и сами понимали, поэтому начали работать над ARC AGI 3) И вот с выходом моделей последнего поколения, Gemini 3 Pro и GPT-5.2, и на этом бенчмарке уровень людей был превзойдён. Стартап Poetiq сделали унифицированную систему (набор промптов и немного кода, см. тут), которая можешь запускаться на любой LLM. Но ясно, что чем лучше сама базовая модель, тем выше качество, сами они по сути сделали очень мало.

Из этого канала