🚨 стрим через ПЯТЬ часов. Судя по анонсу, OpenAI заготовили коллаб с deadmau5 Sama предупредил, что стрим будет идти примерно час. OpenAI весь год готовились к релизу — и выпустили кучу бенчмарков, чтобы (наверное) показать на них отличие моделей нового поколения от старого. Бенчмарков вышло так много, что я даже не все смог вспомнить: — PaperBench, программирование в контексте воспроизведения статей — BrowseComp, браузинг-агенты — HealthBench, применение ИИ в медицине — SWE-Lancer, оценка навыков программирования на реальных проблемах, за которые людям платили доллары — SimpleQA, оценка знаний и галлюцинаций. Тут конкретно ожидаю существенного улучшения навыка модели говорить «я не знаю» (это было замечено у Horizon Alpha/Beta на OpenRouter) — MLE-bench, оценка навыков решения стандартизованных ML-задач — SWE-bench Verified, ставший уже нормой оценки навыков программирования агентов — OpenAI-MRCR, оценка работы с длинным контекстом — Graphwalks, тоже оценка работы с длинным контекстом — FrontierMath, очень сложные задачи по математике — MMMLU, широкий набор вопросов по 57 темам, переведённый на 14 языков ...и это только за последний год с хвостиком. уже приготовился к нытью, что все приросты это оверфит Наверняка я про что-то забыл. Из грустного в глаза бросается отсутствие чего-либо, оценивающего мультимодальность (хотя бы работу с изображениями, не говоря про видео и аудио). И, конечно, очень хочется услышать про ранние тесты в разны бизнес-ориентированных компаниях, которые расскажут, насколько в их real world кейсах GPT-5 лучше. Ждом всем селом 🍿 🙏 пожалусто ещё сразу GPT-5 Pro (её упоминание засветилось в коде сайта), а то за что мы $200 платим?
🚨 стрим через ПЯТЬ часов. Судя по анонсу, OpenAI заготовили коллаб с deadmau5…
Из этого канала
- #2727Стрим-анонс GPT-5 начинается через 10 минут вот тут:…
Стрим-анонс GPT-5 начинается через 10 минут вот тут: https://www.youtube.com/watch?v=0UuVJeVVfo Будут все наши, Сама, Грег, Марк, Якуб, Себастьян и другие
- #2728Модель гораздо меньше галлюцинирует, в том числе в медицинских вопросах —…
Модель гораздо меньше галлюцинирует, в том числе в медицинских вопросах — галлюцинаций в 10 раз меньше, чем в GPT-4o
- #2729Системная карточка со всеми бенчмарками для нетерпеливых:…
Системная карточка со всеми бенчмарками для нетерпеливых: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf И более…
- #2724https://cdn.openai.com/API/docs/images/model-page/model-icons/gpt-5.png 👀 👀 👀
https://cdn.openai.com/API/docs/images/model-page/model-icons/gpt-5.png 👀 👀 👀
- #2723В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и…
В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и второй): — Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5.