"Лето, сейчас в разгаре пора олимпиад для школьников, студентов и… — @seeallochnaya

"Лето, сейчас в разгаре пора олимпиад для школьников, студентов и профессионалов. Только-только на днях прошли финалы International Math Olympiad (IMO), в которой всего 6 задач, но все они сложнее, например, AIME, на котором часто отчитываются о результатах (...теперь уже в 100%). Авторы matharena.ai подсуетились и прогнали несколько топовых моделей на задачах. Но не просто по одному ответу на задачу, а с хитростью, позволяющей улучшить качество: 1. Генерируется 32 доказательства/решения 2. Затем устраивается ""турнир"", где сама же LLM сравнивает два решения и определяет, какое лучше 3. Турнир проходит до тех пор, пока не будет выбран финальный кандидат Этот кандидат оценивается независимо двумя судьями, которые проводят оценку по 7-ми бальной шкале. Недостаточно просто получить правильную цифру в ответе (да в IMO и таких задач почти нет), нужно покрыть все тонкости решения. Процесс отбора решений был весьма затратным с точки зрения вычислений и финансов: в среднем генерация каждого окончательного ответа модели стоила не менее 3 долларов, а для Grok-4 затраты на ответ составляли более 20 долларов. Победителем вышла Gemini 2.5 Pro, набравшая 13 баллов из 42. Этого почти наверняка недостаточно, чтобы получить бронзовую медаль — но финальных критериев оценки, а также ранкинга для участников олимпиады, нет. Выйти на первое место помогло успешное решение третьей задачи, с которой остальные модели справлялись куда хуже. Промпты для генерации и оценки решений можно посмотреть тут. Ну и чтобы два раза не писать — вторая картинка это та же matharena, где авторы провели оценку на задачах Project Euler, опубликованных примерно с середины мая 2025-го года. В теории, их не должно быть в тренировочной выборке моделей, хотя это сложно гарантировать. Тут модель OpenAI на первом месте, Gemini подотстала, а Sonnet, увы, совсем внизу 😢"

Из этого канала