🚨 стрим через ПЯТЬ часов. Судя по анонсу, OpenAI заготовили коллаб с deadmau5… — @seeallochnaya

🚨 стрим через ПЯТЬ часов. Судя по анонсу, OpenAI заготовили коллаб с deadmau5 Sama предупредил, что стрим будет идти примерно час. OpenAI весь год готовились к релизу — и выпустили кучу бенчмарков, чтобы (наверное) показать на них отличие моделей нового поколения от старого. Бенчмарков вышло так много, что я даже не все смог вспомнить: — PaperBench, программирование в контексте воспроизведения статей — BrowseComp, браузинг-агенты — HealthBench, применение ИИ в медицине — SWE-Lancer, оценка навыков программирования на реальных проблемах, за которые людям платили доллары — SimpleQA, оценка знаний и галлюцинаций. Тут конкретно ожидаю существенного улучшения навыка модели говорить «я не знаю» (это было замечено у Horizon Alpha/Beta на OpenRouter) — MLE-bench, оценка навыков решения стандартизованных ML-задач — SWE-bench Verified, ставший уже нормой оценки навыков программирования агентов — OpenAI-MRCR, оценка работы с длинным контекстом — Graphwalks, тоже оценка работы с длинным контекстом — FrontierMath, очень сложные задачи по математике — MMMLU, широкий набор вопросов по 57 темам, переведённый на 14 языков ...и это только за последний год с хвостиком. уже приготовился к нытью, что все приросты это оверфит Наверняка я про что-то забыл. Из грустного в глаза бросается отсутствие чего-либо, оценивающего мультимодальность (хотя бы работу с изображениями, не говоря про видео и аудио). И, конечно, очень хочется услышать про ранние тесты в разны бизнес-ориентированных компаниях, которые расскажут, насколько в их real world кейсах GPT-5 лучше. Ждом всем селом 🍿 🙏 пожалусто ещё сразу GPT-5 Pro (её упоминание засветилось в коде сайта), а то за что мы $200 платим?

Из этого канала