Epoch.AI замерили Sora 2 на... GPQA, бенчмарке по химии-физике в виде теста с 4… — @seeallochnaya

Epoch.AI замерили Sora 2 на... GPQA, бенчмарке по химии-физике в виде теста с 4 вариантами ответа. Просили угарного профессора из МГУ показать бумажку с ответом. Правильно ответили на 55% вопросов (качество GPT-5 ~72%), что выше большого числа моделей прошлого поколения. КАААК? Скорее всего всё просто: перед подачей на генерацию промпт пользователя переписывается (не только для этих тестов, но и вообще для любого запроса), и модель решает задачу и пишет «покажи профессора который показывает букву C». На неделе вышла статья от Google DeepMind, где они проверяют модель генерации видео Veo 3 на большом количестве физических и логических задач, от решения лабиринтов до имплементации графовых алгоритмов (через заливание трубочек водой), и, как мне кажется, это куда более интересно — рекомендую посмотреть лендинг вот тут.

Из этого канала