Epoch.AI опубликовали результаты GPT-5 на FrontierMath — датасете, про который… — @seeallochnaya

Epoch.AI опубликовали результаты GPT-5 на FrontierMath — датасете, про который я писал вот тут (с маленькой драмой). Это набор достаточно сложных математически задач, созданный ведущими математиками в разных областях со всего мира, и созданный при финансовой поддержке OpenAI. В нём есть 4 тира, первые 3 относительно «простые» (уровня олимпиадной математики), а четвертый — настоящий монстр: в него входят задачи со фронтира, так называемые research-level problems. Они собраны от авторов, которые прямо сейчас толкают границу знаний, и основаны на проблемах, которые им пришлось преодолеть. Для некоторых задач (не знаю какой доли) необходимая теория или техники для решения ещё даже не опубликованы — как было в одной из задач, которую решила o3. Моделям самим придётся сделать «мини открытие» для решения. На 1-3 уровнях GPT-5 занимает первое место, но существенного отрыва нет (хоть по отношению ко второму месту, o4-mini, он стат. значим). Epoch.AI не обнаружили признаков обучения GPT-5 на задачах — на отложенной выборке в 63 задачи, решения для которых не были переданы OpenAI, качество просаживается, но не статистически значимо. Для Tier 4 Epoch.AI не публиковали решения 20 из 48 задач. GPT-5 смогла суммарно решить 4, три из которых были в этой отложенной выборке. Две из них не были решены ни одной предшествующей моделью. GPT-5-nano на удивление смогла решить одну из задач, которую не взял никто (даже GPT-5), правда, по случайности — рассуждения и решение были некорректными, ответ просто совпал. Это показывает, насколько важно (и сложно) добиваться того, чтобы ответы нельзя было угадать. Суммарно из 48 задач теперь 7 решены хотя бы одной из моделей. До релиза GPT-5 было 4 (и 3 — без o3). И это ещё не тестировали GPT-5 Pro, не говоря о системе, которая выиграла золотую медаль на IMO! Так может уже и за 10 задач перешагнули бы. А ведь Tier 4 был анонсирован в июле этого года... Кажется, что через год математик, занимающийся исследованиями, будет просто обязан использовать столь мощный инструментарий.

Из этого канала