Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень… — @seeallochnaya

Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть встречающихся в работе людей, старающихся двигать фронтир науки). Новость 1: на Tier 4, самой сложной группе задач, DeepMind заняли топ-1 со своей новой агентской системой Co-Mathematician, решив 48% задач. Это солидный отрыв от предыдущего первого места GPT-5.5 Pro и 40%. Каждая из решённых задач очень сложна и занимала существенное время у исследователя, который добавил её в бенчмарк. Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные ответы в их системе проверки 👨‍🦳. Для проверки используют GPT-5.5, пока не уточнили как — просят ли искать ошибки в оригинальных решениях или как-то ещё. Ждём исправленной версии, может быть оценки моделей чуть подскочат. Новость 3: почему именно GPT-5.5? На бенчмарке от других авторов BrokenArxiv модель разносит конкурентов просто в щепки, отрываясь от топ-2 почти в 3 раза. BrokenArxiv — это бенчмарк на основе формул и доказательств из статей/препринтов, в которых авторы намеренно поменяли какие-то части, чтобы выражения выглядели правдоподобными, но гарантированно ложными. И просят модели их доказать. Большинство моделей пишет разные доказательства, очевидно, неправильные, и лишь модель OpenAI часто говорит, что доказательства нет, так как выражение ложное. Поэтому модель хорошо использовать для проверок/вычитки мат. задач и решений. На картинке вы можете видеть результаты на самом свежем наборе задач, составленном на основе статей, вышедших в апреле (так что модели почти наверняка на них не тренировались):

Из этого канала