В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и… — @seeallochnaya

В преддверии выхода GPT-5 — выжимка двух постов TheInformation (первый и второй): — Изначально Orion, ставший GPT-4.5, хотели сделать GPT-5. Однако большинство трюков, которые исследователи нашли на «маленьких» моделях, потеряли свою эффективность при масштабировании. Так происходит часто, но тут, видимо, упадок был больше ожидаемого. — по данным аутлета, o3 имеет ту же базовую модель, что и o1 (я так думал с первого дня + про это рассказывал Dylan Patel), поэтому все приросты, что мы видели — исключительно за счёт дотренировки рассуждениям. — o3 в ChatGPT тупее o3, показанной в декабре. Основная причина в том, что первая — это исследовательский результат, а вторая — это продукт, который дотренировали на человечность общения, поддержку чата, итд. — Ещё в июне в OpenAI не было модели настолько хорошей, чтобы называться GPT-5. Рад, что ребята справились с техническими трудностями 🩷 — Однако у OpenAI все еще был козырь в рукаве: компания разрабатывала то, что исследователи назвали «универсальным верификатором», который автоматизирует процесс проверки ответов в процессе обучения. Этот процесс по сути заключается в поручении версии LLM проверки и оценки ответов другой модели с использованием различных источников для их исследования. Тут могут пригодиться и веб-поиск из Deep Research / o3, и навыки написания кода, и другие. — Сейчас все модели, что мы видим, были обучены рассуждениям в доменах с простой верификацией. Magistral, DeepSeek R1, Qwen, o3 — все учились по большей степени на задачах математики, где ответ легко извлечь и сравнить за долю секунды с исходным, и на задачах программирования, где код решения запускался на разных тестах и либо их проходил, либо нет. Конечно, добавляли тесты с выбором ответа из разных доменов (физика, биология, итд), но ключевое здесь — ответ везде легко извлечь и проверить. «Универсальный верификатор» позволяет перевернуть страницу и начать обучаться рассуждениям на задачах, где критерии оценки ответа не очевидны и даже субъективны. — «Технические детали работы универсального верификатора пока неясны. По сути, он заключается в поручении LLM проверки и оценки ответов другой модели» — «Один исследователь рассказал, что верификатор может быть похож на концепцию генеративно-состязательных сетей (GAN). В GAN есть две модели: модель-генератор, которая пытается создать поддельные данные, такие как текст, изображения и аудио, и модель-дискриминатор, которая пытается отличить поддельные данные, созданные ИИ, от настоящих данных, созданных человеком. В ходе итеративного обучения модель-генератор учится генерировать высококачественные данные, неотличимые от реальных» (ну а в контексте GPT-5, видимо, генерировать ответы, неотличимые от правильных) Пока на ум приходит две статьи, которые, надеюсь, разберу в канале: — Inference-Time Scaling for Generalist Reward Modeling от DeepSeek — Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning от ByteDance Ну а какой выйдет GPT-5 и насколько она BIG или не BIG мы узнаем уже совсем скоро!

Из этого канала