"Статья-zeitgeist от рисечера из OpenAI. Главная тема всех разговоров в последние 3 месяцев — RL в LLM и агентах наконец-таки заработал! Начинается второй тайм. RL стал переносимым. Большие языковые модели + шаг «подумать» + короткое RL-дообучение теперь решают код, математику, длинные вопросы и работу с компьютером. Претрейн даёт знания, рассуждение расширяет пространство действий.Один и тот же метод начинает работать почти везде, а не в узком домене файнтьюна, как раньше. Появился готовый ""рецепт"" универсального агента. Берём LLM, разрешаем ей размышлять текстом, слегка подкрепляем на конкретной задаче. Почему: ключевыми оказались не алгоритмы RL, а сильные языковые приёмы (priors) и возможность размышлять. ИИ побеждает в шахматах, Go, SAT и олимпиадах, а экономика почти не меняется. Почему: тесты далеки от реальных рабочих процессов. Эффект: нужны задачи, где улучшение метрики прямо увеличивает ценность для пользователя или бизнеса. Чтобы ИИ дал x10 мирового ВВП нам уже не нужны более умные ИИ. Скорее, наоборот, чуть тупее, специализированнее и главное надежнее. В ИИ стартапах навыки продакт-мышления выходят на первый план. Теперь важно не как обучить, а ""что именно стоит решать"" и ""как измерить экономическую выгоду"". Исследователь превращается в продукт-менеджера — определяет проблему, метрику и путь к реальному эффекту. Нужно больше минералов. И минералов ли?"