Epoch.AI замерили Sora 2 на... GPQA, бенчмарке по химии-физике в виде теста с 4 вариантами ответа. Просили угарного профессора из МГУ показать бумажку с ответом. Правильно ответили на 55% вопросов (качество GPT-5 ~72%), что выше большого числа моделей прошлого поколения. КАААК? Скорее всего всё просто: перед подачей на генерацию промпт пользователя переписывается (не только для этих тестов, но и вообще для любого запроса), и модель решает задачу и пишет «покажи профессора который показывает букву C». На неделе вышла статья от Google DeepMind, где они проверяют модель генерации видео Veo 3 на большом количестве физических и логических задач, от решения лабиринтов до имплементации графовых алгоритмов (через заливание трубочек водой), и, как мне кажется, это куда более интересно — рекомендую посмотреть лендинг вот тут.
Epoch.AI замерили Sora 2 на... GPQA, бенчмарке по химии-физике в виде теста с 4…
Из этого канала
- #2969Это я сижу с 10 открытыми вкладками в попытках написать пост.
Это я сижу с 10 открытыми вкладками в попытках написать пост.
- #2970Через 20 минут начинается OpenAI DevDay, открывающее выступление у CEO…
Через 20 минут начинается OpenAI DevDay, открывающее выступление у CEO компании: https://www.youtube.com/live/hS1YqcewH0c По слухам, представят: — новую модель…
- #2971У проекта Neuralink по внедрению чипов в голову уже 12 пациентов, и даже у…
У проекта Neuralink по внедрению чипов в голову уже 12 пациентов, и даже у самого первого всё в порядке, сигналы считываются, соединение работает.
- #2967Если вдруг пропустили — под этим тредом продолжается раздача инвайтов. Огромное…
Если вдруг пропустили — под этим тредом продолжается раздача инвайтов. Огромное спасибо всем, кто взял один и отдал обратно 4, позволив большему количеству…
- #2966Контекст: Последние минут 10 уже не генерирует, висит в очереди — видимо, спрос…
Контекст: Последние минут 10 уже не генерирует, висит в очереди — видимо, спрос подскочил после обеда, и видеокарточки кончились UPD: исправили