"Нам предлагают не просто предсказывать следующий токен, а еще поразмышлять перед этим. Reinforced Pre-Training (RPT) Есть последовательность токенов x_{<t}, моделька генерит рассуждение (цепочку токенов) c_t и еще конечную цепочку (там может быть один или несколько токенов) y_t. Смотрим, чтобы y_t было точным префиксом истинного продолжения из данных. Если да, то ревард 1, если нет, то 0. В качестве датасета для тюна взяли OmniMATH (4.4к семплов с ответами). Нарезали на контекст и продолжения с использованием фильтра по энтропии прогоняя через прокси модельку R1 дистил 1.5B модельку. Как я понимаю: берут каждый пример из трейна, прогоняют через прокси 1.5B модельку, для каждого следующего токена берут топ 16 самых вероятных, если энтропия на них больше порога (его не уточнили), то здесь будут тюнить. (наверное делают перенормировку по топ 16 токенам и нормализацию по энтропии и сверяют с порогом) На этом тюнили Deepseek R1 Distill 14B с GRPO. Авторы пишут что моделька потюненая RPT больше использует слов присущим построению гипотез (probably, maybe, assume) и логическому выводу (therefore, logically, conclude), чем базовая моделька. При этом меньше раскладывает задачи на подзадачи. Вероятно потому, что обычно в ризонинге учим раскладывать сложные задачи на простые шаги. А при RPT видать учится ""рассуждать"" наперед. Ну и такой подход вроде докидывает. Так понял. В целом показалось интересным. Увидим будут ли раскручивать подход и больше экспериментов надо Reinforcement Pre-Training https://arxiv.org/abs/2506.08007 https://www.alphaxiv.org/ru/overview/2506.08007 PS кстати заходите в https://t.me/researchim мы там ИИнфу собираем и теперь уже много всяких проектиков делаем"