Epoch.AI проверили GPT-5 Pro и Gemini DeepThink на FrontierMath Tier 4. Если забыли что это такое, то скопирую описание из прошлого поста: > в него входят задачи со фронтира [математики], так называемые research-level problems. Они собраны от авторов, которые прямо сейчас толкают границу знаний, и основаны на проблемах, которые им пришлось преодолеть. Для некоторых задач (не знаю какой доли) необходимая теория или техники для решения ещё даже не опубликованы. Моделям самим придётся сделать «мини открытие» для решения. Некоторые из задач требуют недель работы профессионального математика. GPT-5 Pro решила 6 задач, Gemini DeepThink 5; до этого лидировала GPT-5 High (упростили называется нейминг линейки 🤡) с 4 задачами из 48. При этом авторы прогнали GPT-5 Pro дважды: сначала руками на сайте ChatGPT, и на этой неделе, когда появилось API. И там и там модель решила по 6 задач, но суммарно уникальных 8. Каждая задача тут безумно сложна, и именно поэтому Epoch.AI выделяют, сколько могут решить модели текущего поколения. Одна из этих 8 задач не была решена ни одной моделью до этого. Напомню, что OpenAI профинансировала создание FrontierMath, и имеет доступ к условиям 28 из 48 задач и их решениям. Из восьми задач, решённых хотя бы один раз с помощью GPT-5 Pro, пять входят в двадцадку, которую OpenAI не видели. 6-8 задач из 48 не кажется чем то мозговзрывающим, но ещё раз: это очень сложные проблемы исследовательского уровня, лежащие на границе науки на данный момент. Мне сложно сказать, сколько задач из этих модели должны решать, чтобы объявить, что математики, не пользующиеся AI в своих исследованиях, глупцы — может, 20, может, 45, но произойдет это очень скоро. И, как мне кажется, это может быть одной из точек привлечения большого количества денег от государств: мы вам передовую технологию для ваших исследователей, вы нам — десятки миллиардов долларов. Иначе ведь наука начнёт отставать!
Epoch.AI проверили GPT-5 Pro и Gemini DeepThink на FrontierMath Tier 4. Если…
Из этого канала
- #2977😂😂😂 я кстати тоже 10 лет назад говорил что LLM не приведут ни к чему. Ну и…
😂😂😂 я кстати тоже 10 лет назад говорил что LLM не приведут ни к чему. Ну и видите — не привели!
- #2978План миссии Flight 11. До старта ~ 8 часов. Большой финал целого поколения…
План миссии Flight 11. До старта ~ 8 часов. Большой финал целого поколения системы Starship V2 и ускорителей Super Heavy V1 пройдёт ради сбора данных для…
- #2979Сегодня OpenAI и Broadcom объявили о сотрудничестве, про которое ходили слухи…
Сегодня OpenAI и Broadcom объявили о сотрудничестве, про которое ходили слухи последние года полтора.
- #2975Проснулись-потянулись, посмотрели на примерную разбивку трат OpenAI на…
Проснулись-потянулись, посмотрели на примерную разбивку трат OpenAI на вычислительные мощности... за 2024-й год. Источник — свежая инфографика от Epoch.Ai.
- #2972Иллюстрации из блога Tim Urban 2015-го года. Удивительно, как многие…
Иллюстрации из блога Tim Urban 2015-го года. Удивительно, как многие воспринимают это буквально («пройдут секунды»).