Посмотрел свежее интервью с тремя ключевыми сотрудниками OpenAI, стоящими за системой, выигравшей золотую медаль на международной олимпиаде по математике. Новой информации не так много, тезисно: — вся работа заняла буквально 2-3 месяца, и в большей степени вовлечено было 3 человека. Значимую часть времени трудился только Alex Wei, остальные два участника подключились попозже, когда время поджимало. Конечно, все трое общались и с другими командами, инфраструктура там, итд, но ядро вот всего три человека. — Для задачи 6, самой сложной и решённой всего 6 участниками, Noam подчеркнул значимость способности модели отвечать «ответа нет», тем самым избегая галлюцинаций. Модель знала, что она не решила задачу, и пасовала — это очень важно для интеграции в работу реальных математиков. — Noam упомянул, что основным узким местом при увеличении времени на обдумывание является оценка решений: если время рассуждений увеличить до 1500 часов, оценка займет столько же времени, что создаст существенный боттлнек. — Если говорить о «Задачах тысячелетия», чрезвычайно сложных проблемах, решение которых практически не продвинулось даже после работы сотен учёных в течении десятков лет, то с точки зрения времени на рассуждениях решение потребовало бы увеличения текущего ~полуторачасового интервала, отводимого на решение задач IMO, в 1000 и более раз. Так что впереди ещё долгий путь. — Noam возглавляет команду Multi-agent systems, и проговорился, что система, получившая золотую медаль, как раз использовала многоагентность, чтобы масштабировать параллельные вычисления. Однако система задумывается общей, без заточки только на математику, и сейчас начинается работа по интеграции решения в системы, доступные пользователям ChatGPT. — Noam сказал, что одним из следующих препятствий станет поиск ответа на вопрос: «Как нам заставить модель придумывать новые сложные и полезные задачи?». Но он не видит препятствий, почему это не произойдет. И в этом же контексте добавлю вот такую новость. Помните набор задач FrontierMath от Epoch.AI? Изначально там было 3 уровня сложности, и недавно появился четвёртый, задачи для которого взяты с границы того, что известно математикам сегодня. Всего там 48 задач, и до недавнего времени всего 3 задачи решались хотя бы какой-то моделью (в топе была o4-mini 😋). o3 смогла решить четвёртую, сделав 32 попытки (лишь одна оказалась правильной). Автор задачи, профессор математики из UC, сказал, что модель имела некоторые неправильные предпосылки, но в конечном итоге решила проблему, «сочетая превосходную интуицию относительно асимптотических явлений с ее способностью кодировать и выполнять сложные расчеты для проверки гипотез». «Это выдающееся достижение модели o3. Она точно выявила ключевую идею, которую я закладывал при построении задачи, решение которой основано на (!) неопубликованной технике (!) асимптотического анализа, обобщающей мои результаты, которые лишь немногие люди в мире понимают на глубоком техническом уровне.» Ждём моделек 2026-го года для продвижения фронтира 🥳