"CritPt: Probing the Critical Point of AI Reasoning (блог) TLDR: FrontierMath… — @seeallochnaya

"CritPt: Probing the Critical Point of AI Reasoning (блог) TLDR: FrontierMath (что это — читать тут), но для физики, а не математики. Пока индустрия празднует успехи моделей на школьных олимпиадах по математике и программированию, группа исследователей из пары нац. лабораторий, Caltech, MIT и UIUC решила проверить модели на других доменах, где LLM могут помогать с исследованиями. CritPt проверяет навыки моделей решать задачи уровня начинающего исследователя-физика (junior researcher). Ключевая особенность работы — фундаментальный подход к защите от утечек данных. 71 задача и 190 подзадач были созданы с нуля более чем 50 действующими физиками на основе их собственных неопубликованных исследований. Спектр тем широчайший: от квантовой коррекции ошибок и голографической дуальности до биофизики и гидродинамики. Это гарантирует, что решения невозможно просто ""вспомнить"" из обучающей выборки — требуется синтез оригинальных знаний и дедукция. Для объективной оценки авторы отказались от простых форматов вроде тестов с выбором, и опять же следовали подходу FrontierMath. Модель должна сгенерировать точный ответ: число с плавающей запятой, символьное выражение или Python-функцию. Чтобы минимизировать ошибки форматирования, используется двухэтапный пайплайн: сначала модель генерирует свободное рассуждение, а затем переводит ответ в исполняемый код, после чего происходит автоматическая оценка. Поскольку полные исследовательские задачи (Challenges) часто слишком сложны, их разбили на последовательные этапы, чекпоинты. Оценка здесь проводится в двух режимах для анализа накопления ошибок. Первый — Self-carryover, где модель продолжает решение, опираясь на свои же выводы с предыдущего шага (симуляция реальной работы). Второй — Oracle carryover, где на каждом шаге модели подается ""золотой стандарт"" ответа на предыдущий вопрос. Это позволяет понять, не справляется ли модель с конкретным этапом рассуждений или просто тянет за собой совершенную ранее ошибку. На полных задачах даже лучшая модель, GPT-5, показывает лишь 5.7% точности в базовом режиме. Подключение интерпретатора кода (=калькулятора) поднимает результат до 10-12%, а вот доступ к веб-поиску дает лишь крошечный прирост — задачи нельзя просто нагуглить. Но я захотел написать про этот бенчмарк по другой причине. Авторы ввели метрику Consistently Solved, засчитывая задачу только в том случае, если модель справляется с ней в 4 из 5 независимых запусков. При таком строгом фильтре показатели всех моделей, включая рассуждающие (o3, R1), падают практически до нуля, и только GPT-5 с набором инструментов удерживает планку в районе 10%. То есть модель даже если и путается, то может выправиться и прийти к правильному решению. На картинке нет Gemini 3 Pro, но Artificial Analysis успели её замерить, и получили 9.1% без инструментов (против 5.7% у GPT-5). Consistently Solved не замерили, но думаю, что будет выделяться так же, как GPT-5, без неприятных сюрпризов."

Из этого канала