Учимся с GRPO генерить длинные тексты В работе тюнят Qwen-2.5 7B-Instruct-1M и… — @AGI_and_RL

Учимся с GRPO генерить длинные тексты В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B. Представим что мы хотим научить ллмку книги писать. Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы: High-level story sketch — краткий план всей книги; Previous summary — краткое содержание предыдущих глав; Character sheets — описание ключевых персонажей; Previous chapter — сама последняя глава; Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации). И так как у нас GRPO, у нас есть текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ) и генератор (πᴳ) - это reference моделька. Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана. Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a): ```I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100``` (perplexity считается по распределнию токенов в y) a - это план следующей главы, x - story information, y - сгенеренная глава. Ревард на основе percent improvement смотрим на 4 скрине. Датасет 30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте. Весь объем: 1000+ обучающих примеров; Используются сводки глав, образы персонажей, предыдущие главы. Сравнивали четыре варианта: Base — просто генерация главы по SI. Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу. SFT — генерация после supervised-файнтюнинга на следующей главе. RL-Trained — reasoning обучен через VR-CLI. Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения. В результате имеем: RL-trained модель - лидер почти по всем метрикам. Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy. (3-4 скрины) Так понял Статью читаем, там еще куча инфы Learning to Reason for Long-Form Story Generation https://arxiv.org/abs/2503.22828 https://github.com/Alex-Gurung/ReasoningNCP PS собираемся и собираем инфу по AI в https://t.me/researchim

Из этого канала