Помните я писал про инициативу AIMO? Если нет — читайте тут. TLDR: трейдинговая… — @seeallochnaya

Помните я писал про инициативу AIMO? Если нет — читайте тут. TLDR: трейдинговая компания спонсирует соревнования по математике, где LLM-ки должны решать олимпиадные задачи. Уже провели два раунда, последний закончился в апреле и был сложнее первого. Именно во время второго раунда вышли первые открытые рассуждающие модели, которые позволили существенно нарастить качество. По итогу первая команда решила 34 из 50 задач, а вторая — 31. Но, как я писал в недавнем разборе другого соревнования, ресурсы для запуска LLM сильно ограничены: 9 часов, 4 видеокарты, 50 задач. Не получится запихнуть условный DeepSeek R1 в решение — просто не хватит памяти его запустить. Очень хотелось узнать, какой результат был бы у передовых моделей. Теперь мы знаем ответ — авторы ни с того ни с сего спустя 4 месяца решили опубликовать их замеры o3-preview, той самой модельки/системы, которую OpenAI показывали в декабре. o3-preview была в трёх вариантах: в low- и medium- режиме она выдавала один ответ, а в high- под капотом генерировалось несколько решений, и отдельная функция ранжировала их и отдавала некоторый топ ответов (скажем, 5). Даже low- версия решила на 8 задач больше, чем топ-1 команда на Kaggle, 43 задачи из 50. Напомню, что эти задачи никто до соревнования не видел, их создали специально для оценки, и OpenAI не имели доступа в интернет во время генерации решения. Medium- справилась с 46/50, high- — с 47 задачами. При этом если оценивать не один ответ, а два, то получается что решены все 50 задач. Для сравнения: авторы взяли более 2000 решений и ответов с Kaggle от всех участников для КАЖДОЙ ЗАДАЧИ (то есть это как pass@2000 метрика), и они решили вместе 47 задач. То есть было 3 таких задачки, которые ни одна из моделей/систем участников не решила ни разу. А для модельки OpenAI (даже не системы) от прошлого декабря это были лёгкие редкие. Авторы AIMO пишут, что это превзошло их ожидания. «Принимая во внимание, что эта модель была улучшена с тех пор, как мы провели нашу оценку в марте, и что наши проблемы не являются общедоступными и имеют длинные и сложные решения, это показывает, что сохраняется заметная дистанция между современными открытыми и закрытыми моделями с точки зрения качества» — написали в блоге. Правда потом идёт сноска, что в пересчёте на доллары открытые модели сокращают разрыв, но я так понимаю, что они опирались на те же прикидки цены, что и ARC, а, как мы знаем, они там оооочень сильно промахнулись (брали цены o1-pro по $600 за миллион токенов 😂), да и маржа OpenAI измеряется сотнями процентов, так что комментарий странный, и, как по мне, неуместный — само соревнование подстёгивает к оценке лимитов навыков моделей, а не экономии каждого доллара. За ссылку на пост спасибо @j_links, впервые увидел новость там.

Из этого канала