Смешное из подкаста с ex-CTO OpenAI, Greg Brockman. Он рассказал про времена, когда компания занималась разработкой ботов для DOTA 2: — Мы хотели разработать новые RL алгоритмы, потому что всем в тот момент времени было очевидно, что тогдашние методы не масштабировались. Все знали это. Я помню мой коллега сказал: «а почему это так? Кто-то проверял? Мы правда это знаем?». Я тогда ответил, мол, да, это наш бейзлайн, мы должны отмасштабировать текущий метод и отталкиваться от него. Я помню, как приходил в офис каждую неделю: они удваивали количество ядер на сервере, они играли больше игр, рейтинг агента рос и рос. Я говорил, что нужно продолжать, пока мы не упрёмся в стену. А потом уже можно пойти заняться интересными вещами. И мы так и не упёрлись в стену... (прим.: у них по итогу работал тот же метод, PPO, что они придумали ранее. И им же годы спустя дообучали LLM-ки следовать инструкциям. И, вероятно, им же — или его модификацией — учат агентов / рассуждения. GRPO от DeepSeek — это модификация PPO) Клип (не знал эту историю, решил поделиться)
Смешное из подкаста с ex-CTO OpenAI, Greg Brockman. Он рассказал про времена,…
Из этого канала
- #1198RL пушить надо
RL пушить надо
- #1199Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые…
Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет…
- #1201опять обзор агентного ллмного рля ценой всего The Landscape of Agentic…
опять обзор агентного ллмного рля ценой всего The Landscape of Agentic Reinforcement Learning for LLMs: A Survey https://arxiv.org/abs/2509.02547…
- #1196https://gemini.google.com/app Впервые запустил кста PS все уже, не воркает
https://gemini.google.com/app Впервые запустил кста PS все уже, не воркает
- #1195Может кому интересно про сравнение архитектур gpt-oss с GPT2 и Квенов недавних…
Может кому интересно про сравнение архитектур gpt-oss с GPT2 и Квенов недавних…