Пост плохо состарился — OpenAI объявили, что их внутренняя модель решила 5 из 6… — @seeallochnaya

Пост плохо состарился — OpenAI объявили, что их внутренняя модель решила 5 из 6 задач этого IMO, не справившись лишь с самой сложной, последней задачей. Это позволяет претендовать на золотую медаль. 5 человек получили максимальный балл 42/42, модель прошла по нижней границе, 35 из 42 баллов. Всего людей с золотой медалью 67, и 380 людей с наградами поменьше. И людям, и решению OpenAI давалось одинаковое количество времени: 4.5 часа. Для честности уточню, что OpenAI проводили оценку решений сами (не передавая их специальной комиссии), и что этим независимо занималось 3 обладателя медалей IMO (не ясно, сотрудников компании или отдельных людей). Это первый раз, когда AI-система выигрывает золото — в прошлом году две системы от Google, AlphaProof и AlphaGeometry 2, совместно выиграли серебро, решив 4 задачи. Про систему от OpenAI известно мало, основной источник — вот этот тред от сотрудника: — система не использовала доступ в интернет или tools (Python, калькулятор, системы формальной верификации). Это BIG, потому что все системы показывают себя гораздо лучше, если предоставить эти инструменты — а AlphaProof и AlphaGeometry вообще построены вокруг взаимодействия с ними. — все ответы написаны естественным языком, а не в условном Lean — с точки зрения сложности задач прокси-метрикой может быть время, нужное медалистом для решения. В MATH benchmark нужна ~1 минута, для AIME, на котором последний год сравнивались почти все reasoning модели, нужно ~10; задачи IMO часто требуют порядка ~100 минут — решения задач уровня IMO представляют собой многостраничные доказательства, которые сложно проверить. Прогресс в этом вопросе требует выхода за рамки парадигмы RL с чёткими и проверяемыми вознаграждениями (как учили o1 или GRPO для R1). Это даёт оптимизма и уверенности в генерализуемости подходов. Сотрудник OpenAI пишет «breaking new ground in general-purpose reinforcement learning and test-time compute scaling» (напомню, что OpenAI не врали про то, как работает o1, и по сути рассказали всё, что нужно, чтобы воспроизвести модель; также и тут — я верю этому утверждению). — «we are releasing GPT-5 soon» — модель, выигравшая золото — это экспериментальная исследовательская модель. OpenAI не планируют выпускать нечто с таким уровнем математических возможностей в течение нескольких месяцев. (тут интересно, что делается упор на то, что это МОДЕЛЬ, а не система. И что инструментов нет. Это очень сильная дифференциация и скачок в навыках). — все 5 решений можно посмотреть тут

Из этого канала