GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход. Пожалуй, главное ограничение текущего бенчмарка — это то, что он является одношаговым, нет никаких взаимодействий со внешней средой. What gets measured, gets improved — и стоит ожидать, что в ближайшее время модели вплотную приблизятся к среднему эксперту, по крайней мере в этих и схожих задачах. У компаний есть методы тренировки, которые позволят относительно быстро избавиться от типовых проблем, и скакнуть в качестве. OpenAI пишут об этом в блоге, но в статье не упоминается — «мы дополнительно обучили экспериментальную версию GPT‑5, чтобы проверить, можно ли повысить эффективность на GDPval. Этот процесс действительно улучшил показатели, обозначив путь к дальнейшему прогрессу». Я считаю, что это самый важный бенчмарк этого года. Очень важно, чтобы государство обратило на работу внимание, ведь им самим в первую очередь надо понимать влияние ИИ на рынок труда, оценивать динамику роста возможностей моделей. 40 профессий, 9 направлений — это очень мало; нужно масштабировать процесс на тысячи профессий, нужно привлекать дорогостоящих эспертов; нужно готовиться к перестройке экономики. И поздравляю Anthropic с первым местом, да с таким отрывом. Big model smell doesn't lie 👀 ждём дообученного бегемота GPT-4.5 P.S.: если вы ЭКСПЕРТ и хотите поучаствовать — можно записываться тут. Вся работа оплачивается (до $200 в час).
GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход.…
Из этого канала
- #2932Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой…
Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности…
- #2938Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть…
Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть аккаунт — лайкните пж.
- #2939В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в…
В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в 2025-м году у ChatGPT как флагманского продукта компании будет МНОГО рекламы.
- #2930На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по…
На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что…
- #2928Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины,…
Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека.