Учимся с GRPO генерить длинные тексты В работе тюнят Qwen-2.5 7B-Instruct-1M и 3B. Представим что мы хотим научить ллмку книги писать. Вместо генерации всей книги, будем учить модель генерировать одну следующую главу, используя Story Information с предыдущей главы: High-level story sketch — краткий план всей книги; Previous summary — краткое содержание предыдущих глав; Character sheets — описание ключевых персонажей; Previous chapter — сама последняя глава; Next chapter synopsis — краткий план следующей главы (для оценки, не для генерации). И так как у нас GRPO, у нас есть текущая моделька политики, которая зовется в работе reasoning-модель (πᴿ) и генератор (πᴳ) - это reference моделька. Сначала reasoning-модель (πᴿ) генерирует reasoning trace — рассуждения, заканчивающиеся детальным планом главы (p̂). Затем генератор (πᴳ) пишет главу на основе этого плана. Вводят percent improvement in per-token perplexity (PPL) которая измеряет улучшение вероятности генерации правильной главы (y) при добавлении reasoning trace (плана a): ```I(x, y, a) = [1 - PPL(y | x, a) / PPL(y | x)] × 100``` (perplexity считается по распределнию токенов в y) a - это план следующей главы, x - story information, y - сгенеренная глава. Ревард на основе percent improvement смотрим на 4 скрине. Датасет 30 книг, опубликованных в 2024+ (чтобы избежать утечек в обучении моделей); 22 книги в обучении, 4 в валидации, 4 в тесте. Весь объем: 1000+ обучающих примеров; Используются сводки глав, образы персонажей, предыдущие главы. Сравнивали четыре варианта: Base — просто генерация главы по SI. Base-Reasoning — сначала размышляет а потом по трейсу размышлений генерит главу. SFT — генерация после supervised-файнтюнинга на следующей главе. RL-Trained — reasoning обучен через VR-CLI. Оценка по критериям: сюжет, персонажи, развитие, креативность, стиль, общая предпочтительность. Работу оценивали люди через парные сравнения. В результате имеем: RL-trained модель - лидер почти по всем метрикам. Особенно хорошо reasoning работает в жанре Sci-fi и Fantasy. (3-4 скрины) Так понял Статью читаем, там еще куча инфы Learning to Reason for Long-Form Story Generation https://arxiv.org/abs/2503.22828 https://github.com/Alex-Gurung/ReasoningNCP PS собираемся и собираем инфу по AI в https://t.me/researchim
Учимся с GRPO генерить длинные тексты В работе тюнят Qwen-2.5 7B-Instruct-1M и…
Из этого канала
- #1025https://ai-2027.com/ Кто-нибудь читал? Стоит вообще открывать?
https://ai-2027.com/ Кто-нибудь читал? Стоит вообще открывать?
- #1026Там кстати разрабы ARC AGI походу работают над платформой для…
Там кстати разрабы ARC AGI походу работают над платформой для веб-приложунек/окружений/игр Открыли вакуху на WebGL Unity разраба https://arcprize.org/jobs Я…
- #1027Что мы знаем про дифузионные LLM? Я только то, что им теперь завезли GRPO…
Что мы знаем про дифузионные LLM? Я только то, что им теперь завезли GRPO (diffu-GRPO) дифузионные ллмщики думали что вас не заденет? Сюдааа d1: Scaling…
- #1020На архив приедут аудио саммари…
На архив приедут аудио саммари https://blog.arxiv.org/2025/04/08/arxiv-pilots-audio-summaries-in-partnership-with-sciencecast/ Пока доступны для High Energy…
- #1019Там еще один фреймворк делают чтобы ллмы RLем учить…
Там еще один фреймворк делают чтобы ллмы RLем учить https://github.com/agentica-project/rllm А еще потюнили 14B модельку (из Deepseek-R1-Distilled-Qwen-14B)…