"Лето, сейчас в разгаре пора олимпиад для школьников, студентов и профессионалов. Только-только на днях прошли финалы International Math Olympiad (IMO), в которой всего 6 задач, но все они сложнее, например, AIME, на котором часто отчитываются о результатах (...теперь уже в 100%). Авторы matharena.ai подсуетились и прогнали несколько топовых моделей на задачах. Но не просто по одному ответу на задачу, а с хитростью, позволяющей улучшить качество: 1. Генерируется 32 доказательства/решения 2. Затем устраивается ""турнир"", где сама же LLM сравнивает два решения и определяет, какое лучше 3. Турнир проходит до тех пор, пока не будет выбран финальный кандидат Этот кандидат оценивается независимо двумя судьями, которые проводят оценку по 7-ми бальной шкале. Недостаточно просто получить правильную цифру в ответе (да в IMO и таких задач почти нет), нужно покрыть все тонкости решения. Процесс отбора решений был весьма затратным с точки зрения вычислений и финансов: в среднем генерация каждого окончательного ответа модели стоила не менее 3 долларов, а для Grok-4 затраты на ответ составляли более 20 долларов. Победителем вышла Gemini 2.5 Pro, набравшая 13 баллов из 42. Этого почти наверняка недостаточно, чтобы получить бронзовую медаль — но финальных критериев оценки, а также ранкинга для участников олимпиады, нет. Выйти на первое место помогло успешное решение третьей задачи, с которой остальные модели справлялись куда хуже. Промпты для генерации и оценки решений можно посмотреть тут. Ну и чтобы два раза не писать — вторая картинка это та же matharena, где авторы провели оценку на задачах Project Euler, опубликованных примерно с середины мая 2025-го года. В теории, их не должно быть в тренировочной выборке моделей, хотя это сложно гарантировать. Тут модель OpenAI на первом месте, Gemini подотстала, а Sonnet, увы, совсем внизу 😢"
"Лето, сейчас в разгаре пора олимпиад для школьников, студентов и…
Из этого канала
- #2664"Продолжая тему олимпиад и соревнований, в Японии прошли финалы AtCoder, где…
"Продолжая тему олимпиад и соревнований, в Японии прошли финалы AtCoder, где нужно было за 10 часов написать наилучшее решение для оптимизационной задачи.
- #2665Sama отдаёт респект Psyho за победу над железками
Sama отдаёт респект Psyho за победу над железками
- #2667"AtCoder World Tour Finals 2025 (Heuristic). 2nd place! Как-то все в итоге…
"AtCoder World Tour Finals 2025 (Heuristic). 2nd place! Как-то все в итоге слишком хорошо прошло, даже не пришлось ничего в спешке чинить во время контеста...
- #2661Объявляю сегодня вечер контента 😎
Объявляю сегодня вечер контента 😎
- #2660Сегодня в 6 вечера по Лондону и в 8 по Москве OpenAI проведёт стрим — анонс…
Сегодня в 6 вечера по Лондону и в 8 по Москве OpenAI проведёт стрим — анонс появился в Твиттере компании.