Epoch.AI опубликовали результаты GPT-5 на FrontierMath — датасете, про который я писал вот тут (с маленькой драмой). Это набор достаточно сложных математически задач, созданный ведущими математиками в разных областях со всего мира, и созданный при финансовой поддержке OpenAI. В нём есть 4 тира, первые 3 относительно «простые» (уровня олимпиадной математики), а четвертый — настоящий монстр: в него входят задачи со фронтира, так называемые research-level problems. Они собраны от авторов, которые прямо сейчас толкают границу знаний, и основаны на проблемах, которые им пришлось преодолеть. Для некоторых задач (не знаю какой доли) необходимая теория или техники для решения ещё даже не опубликованы — как было в одной из задач, которую решила o3. Моделям самим придётся сделать «мини открытие» для решения. На 1-3 уровнях GPT-5 занимает первое место, но существенного отрыва нет (хоть по отношению ко второму месту, o4-mini, он стат. значим). Epoch.AI не обнаружили признаков обучения GPT-5 на задачах — на отложенной выборке в 63 задачи, решения для которых не были переданы OpenAI, качество просаживается, но не статистически значимо. Для Tier 4 Epoch.AI не публиковали решения 20 из 48 задач. GPT-5 смогла суммарно решить 4, три из которых были в этой отложенной выборке. Две из них не были решены ни одной предшествующей моделью. GPT-5-nano на удивление смогла решить одну из задач, которую не взял никто (даже GPT-5), правда, по случайности — рассуждения и решение были некорректными, ответ просто совпал. Это показывает, насколько важно (и сложно) добиваться того, чтобы ответы нельзя было угадать. Суммарно из 48 задач теперь 7 решены хотя бы одной из моделей. До релиза GPT-5 было 4 (и 3 — без o3). И это ещё не тестировали GPT-5 Pro, не говоря о системе, которая выиграла золотую медаль на IMO! Так может уже и за 10 задач перешагнули бы. А ведь Tier 4 был анонсирован в июле этого года... Кажется, что через год математик, занимающийся исследованиями, будет просто обязан использовать столь мощный инструментарий.
Epoch.AI опубликовали результаты GPT-5 на FrontierMath — датасете, про который…
Из этого канала
- #2767Мысли из свежего поста Semianalysis: Для многих опытных пользователей (Pro и…
Мысли из свежего поста Semianalysis: Для многих опытных пользователей (Pro и Plus) релиз GPT5 оказался разочарованием.
- #2770"Посмотрел у Дудя интервью из Долины с Андреем Дороничевым, неплохое видео.…
"Посмотрел у Дудя интервью из Долины с Андреем Дороничевым, неплохое видео. Рекомендовать каждому не буду, большинство вещей про ИИ вы знаете и так, если…
- #2771When it works — it works like a magic 👀 жаль Агента пока не перевели на GPT-5.…
When it works — it works like a magic 👀 жаль Агента пока не перевели на GPT-5. Один знакомый, занимающийся исследованиями в этой области, сказал, что…
- #2764Спасибо тем, кто жаловался, что 2 опции очень сложно: теперь мой ChatGPT…
Спасибо тем, кто жаловался, что 2 опции очень сложно: теперь мой ChatGPT выглядит вот так.
- #2763Маск решил судиться с Apple. По его мнению, Apple манипулирует рейтингами в App…
Маск решил судиться с Apple. По его мнению, Apple манипулирует рейтингами в App Store таким образом, что только приложения OpenAI могут занять в них первое…