Прочитал пост Gary Marcus про результаты AI моделей на IMO 2025. На удивление… — @seeallochnaya

Прочитал пост Gary Marcus про результаты AI моделей на IMO 2025. На удивление не так много бреда, я ожидал худшего, но кто знает, может быть дальше выйдет вторая половина. Gary два раза написал, что результат сам по себе выдающийся, что это круто. Правда как истинный противник LLM он не написал, что его это удивило или что он не верил, что это произойдет так скоро. Мне не удалось найти его предсказаний и утверждений что этого прям не случится, но есть косвенные улики: — в апреле этого года он написал эссе «Reports of LLMs mastering math have been greatly exaggerated», где показывал, мол, вот текущие модельки не могут порешать олимпиаду. — за день до результатов от OpenAI, он репостил замеры MathArena, где Gemini 2.5 Pro получила всего 13 баллов (золотая медаль 35) на IMO, и этим подкреплял своё мнение. Так что я считаю, что было бы честным написать «я был очень удивлён и не ожидал настолько хороших результатов. Это меняет моё мнение так-то и так-то». Но после прочтения поста не складывается ощущения, что это его удивило или хоть как-то противоречит его взглядам, которые он высказывает 20 лет! Что нейросети это тупик и что нужно искать другие способы создать AGI. 😀 20 лет прогресса нет === Также в посте он цитирует математика Kevin Buzzard: «...[AI полезны] так же, как когда я приехал в Кембридж, будучи студентом, сжимая в руках золотую медаль IMO; я не имел возможности помочь ни одному из тамошних исследователей-математиков». Мне кажется Gary утешает себя этим, мол, посмотрите ! Вот настоящий математик говорит что модели, взявшие золото, не факт что смогут привнести ценность в исследованиях! Зная Gary и его навык двигать goalposts для моделей (см. вот этот пост про изменение оценки развития AI за 1 год) — как только LLM смогут помочь Terence Tao в его открытиях, он тут же скажет «ну так модели не сами получили Нобелевку». А когда получат — «ну так это же мы определили проблемы, которые им дать, сформулировали задачу, а уж доказательство и ежу понятно как сделать». Всё это и бесполезно, и не конструктивно, и принижает реальный прогресс. Я вижу большую ценность в промежуточных прокси-бенчмарках. Не имеет смысла сидеть и ждать, пока не произойдет событие X, нужно как-то оценить движение в его направлении. Уж точно у модели, решающей IMO на золото, шансов помочь исследователю в рамках реально задачи больше, чем у ChatGPT на релизе в 2022-м году.

Из этого канала