В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и второй): — Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании. Так происходит часто, но тут, видимо, упадок был больше ожидаемого. — по данным аутлета, o3 имеет ту же базовую модель, что и o1 (я так думал с первого дня + про это рассказывал Dylan Patel), поэтому все приросты, что мы видели — исключительно за счёт дотренировки рассуждениям. — o3 в ChatGPT тупее o3, показанной в декабре. Основная причина в том, что первая — это исследовательский результат, а вторая — это продукт, который дотренировали на человечность общения, поддержку чата, итд. — Ещё в июне в OpenAI не было модели настолько хорошей, чтобы называться GPT-5. Рад, что ребята справились с техническими трудностями 🩷 — Однако у OpenAI все еще был козырь в рукаве: компания разрабатывала то, что исследователи назвали «универсальным верификатором», который автоматизирует процесс проверки ответов в процессе обучения. Этот процесс по сути заключается в поручении версии LLM проверки и оценки ответов другой модели с использованием различных источников для их исследования. Тут могут пригодиться и веб-поиск из Deep Research / o3, и навыки написания кода, и другие. — Сейчас все модели, что мы видим, были обучены рассуждениям в доменах с простой верификацией. Magistral, DeepSeek R1, Qwen, o3 — все учились по большей степени на задачах математики, где ответ легко извлечь и сравнить за долю секунды с исходным, и на задачах программирования, где код решения запускался на разных тестах и либо их проходил, либо нет. Конечно, добавляли тесты с выбором ответа из разных доменов (физика, биология, итд), но ключевое здесь — ответ везде легко извлечь и проверить. «Универсальный верификатор» позволяет перевернуть страницу и начать обучаться рассуждениям на задачах, где критерии оценки ответа не очевидны и даже субъективны. — «Технические детали работы универсального верификатора пока неясны. По сути, он заключается в поручении LLM проверки и оценки ответов другой модели» — «Один исследователь рассказал, что верификатор может быть похож на концепцию генеративно-состязательных сетей (GAN). В GAN есть две модели: модель-генератор, которая пытается создать поддельные данные, такие как текст, изображения и аудио, и модель-дискриминатор, которая пытается отличить поддельные данные, созданные ИИ, от настоящих данных, созданных человеком. В ходе итеративного обучения модель-генератор учится генерировать высококачественные данные, неотличимые от реальных» (ну а в контексте GPT-5, видимо, генерировать ответы, неотличимые от правильных) Пока на ум приходит две статьи, которые, надеюсь, разберу в канале: — Inference-Time Scaling for Generalist Reward Modeling от DeepSeek — Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning от ByteDance Ну а какой выйдет GPT-5 и насколько она BIG или не BIG мы узнаем уже совсем скоро!
В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и…
Из этого канала
- #2724https://cdn.openai.com/API/docs/images/model-page/model-icons/gpt-5.png 👀 👀 👀
https://cdn.openai.com/API/docs/images/model-page/model-icons/gpt-5.png 👀 👀 👀
- #2725🚨 стрим через ПЯТЬ часов. Судя по анонсу, OpenAI заготовили коллаб с deadmau5…
🚨 стрим через ПЯТЬ часов. Судя по анонсу, OpenAI заготовили коллаб с deadmau5 Sama предупредил, что стрим будет идти примерно час.
- #2727Стрим-анонс GPT-5 начинается через 10 минут вот тут:…
Стрим-анонс GPT-5 начинается через 10 минут вот тут: https://www.youtube.com/watch?v=0UuVJeVVfo Будут все наши, Сама, Грег, Марк, Якуб, Себастьян и другие
- #2721Вчера DeepMind представили Genie 3 — новую world model (дают такое определение:…
Вчера DeepMind представили Genie 3 — новую world model (дают такое определение: AI-системы, которые могут использовать свое понимание мира для моделирования…
- #2720Полистал разные бенчмарки, выглядит так, что больше всего, помимо…
Полистал разные бенчмарки, выглядит так, что больше всего, помимо кодинг-агентов, выиграло здравоохранение — модель на 120B в HealthBench почти достигает…