GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход. Пожалуй, главное ограничение текущего бенчмарка — это то, что он является одношаговым, нет никаких взаимодействий со внешней средой. What gets measured, gets improved — и стоит ожидать, что в ближайшее время модели вплотную приблизятся к среднему эксперту, по крайней мере в этих и схожих задачах. У компаний есть методы тренировки, которые позволят относительно быстро избавиться от типовых проблем, и скакнуть в качестве. OpenAI пишут об этом в блоге, но в статье не упоминается —  «мы дополнительно обучили экспериментальную версию GPT‑5, чтобы проверить, можно ли повысить эффективность на GDPval. Этот процесс действительно улучшил показатели, обозначив путь к дальнейшему прогрессу». Я считаю, что это самый важный бенчмарк этого года. Очень важно, чтобы государство обратило на работу внимание, ведь им самим в первую очередь надо понимать влияние ИИ на рынок труда, оценивать динамику роста возможностей моделей. 40 профессий, 9 направлений — это очень мало; нужно масштабировать процесс на тысячи профессий, нужно привлекать дорогостоящих эспертов; нужно готовиться к перестройке экономики. И поздравляю Anthropic с первым местом, да с таким отрывом. Big model smell doesn't lie 👀 ждём дообученного бегемота GPT-4.5 P.S.: если вы ЭКСПЕРТ и хотите поучаствовать — можно записываться тут. Вся работа оплачивается (до $200 в час).