Наконец-то авторы FrontierMath прочесали ответы для задач, исправили ошибки, выкинули часть проблем и пересчитали оценки. Скачок получился... большим 😕 Большая часть ошибок — это потеря знака (плюс на минус и наоборот) в вычислениях людей и/или переносе решения в код для проверки, а также ошибка на +-1. Humans, what to say — большую часть ошибок помогла найти GPT-5.5 На первой картинке изменения в оценках для моделей GPT в tier 1-3 (полегче) и tier 4 (посложнее). На второй — абсолютный топ tier-4. Раньше каждая решённая задача в tier 4 сопровождалась комментариями от математика, принимавшего участие в её составлении; они писали, мол, я сам-то не сразу догадался, а модель вот нашла способ и придумала и вообще круто что такую сложную задачу берёт! ...а теперь оказалось, что зарешано 76% задач 😇 пу-пу-пу, только на FrontierMath Open Problems и надеемся UPD: Fable занял топ-1 на Tier-4 с 88%, всё, бенчмарк можно закрывать...
Наконец-то авторы FrontierMath прочесали ответы для задач, исправили ошибки,…
Из этого канала
- #3707До выхода Opus 4.5 многие сидели на Sonnet 4.5 — он казался достаточно умным, и…
До выхода Opus 4.5 многие сидели на Sonnet 4.5 — он казался достаточно умным, и в то же время его можно было использовать по подписке гораздо больше, чем Opus,…
- #3706Нажал на кнопку — вывел компанию на биржу — стал триллионером. Вот так просто 😀
Нажал на кнопку — вывел компанию на биржу — стал триллионером. Вот так просто 😀
- #3705Две новости в одной: — Anthropic откатили обратно «скрытое» ухудшение ответов…
Две новости в одной: — Anthropic откатили обратно «скрытое» ухудшение ответов Fable, если запрос касался потенциальной разработки конкурирующих технологий /…