Epoch.AI проверили GPT-5 Pro и Gemini DeepThink на FrontierMath Tier 4. Если… — @seeallochnaya

Epoch.AI проверили GPT-5 Pro и Gemini DeepThink на FrontierMath Tier 4. Если забыли что это такое, то скопирую описание из прошлого поста: > в него входят задачи со фронтира [математики], так называемые research-level problems. Они собраны от авторов, которые прямо сейчас толкают границу знаний, и основаны на проблемах, которые им пришлось преодолеть. Для некоторых задач (не знаю какой доли) необходимая теория или техники для решения ещё даже не опубликованы. Моделям самим придётся сделать «мини открытие» для решения. Некоторые из задач требуют недель работы профессионального математика. GPT-5 Pro решила 6 задач, Gemini DeepThink 5; до этого лидировала GPT-5 High (упростили называется нейминг линейки 🤡) с 4 задачами из 48. При этом авторы прогнали GPT-5 Pro дважды: сначала руками на сайте ChatGPT, и на этой неделе, когда появилось API. И там и там модель решила по 6 задач, но суммарно уникальных 8. Каждая задача тут безумно сложна, и именно поэтому Epoch.AI выделяют, сколько могут решить модели текущего поколения. Одна из этих 8 задач не была решена ни одной моделью до этого. Напомню, что OpenAI профинансировала создание FrontierMath, и имеет доступ к условиям 28 из 48 задач и их решениям. Из восьми задач, решённых хотя бы один раз с помощью GPT-5 Pro, пять входят в двадцадку, которую OpenAI не видели. 6-8 задач из 48 не кажется чем то мозговзрывающим, но ещё раз: это очень сложные проблемы исследовательского уровня, лежащие на границе науки на данный момент. Мне сложно сказать, сколько задач из этих модели должны решать, чтобы объявить, что математики, не пользующиеся AI в своих исследованиях, глупцы — может, 20, может, 45, но произойдет это очень скоро. И, как мне кажется, это может быть одной из точек привлечения большого количества денег от государств: мы вам передовую технологию для ваших исследователей, вы нам — десятки миллиардов долларов. Иначе ведь наука начнёт отставать!

Из этого канала