RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов. Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд). ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать) С RLем сильно улучшили метрички, 1 и 2 скрин. Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность. Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось. Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o) На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен. Ну как-то быстро конечно. Подробнее читаем тут Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning https://arxiv.org/abs/2503.24289 Код тута: https://github.com/linjc16/Rec-R1 PS все крутые статьи собираем и делаем проектики в https://t.me/researchim
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на…
Из этого канала
- #1011Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What,…
Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models…
- #1012Есть такой проектик tiny-grpo от ребят из open-thoughts:…
Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo типа минималистичный имплемент грпо.
- #1013Тут толпа исследователей из разных компаний и универов сделалил большую обзорку…
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов Обучение, ризонинги, память, world models,…
- #1006Тут кстати есть довольно свежии лекции по квантовым алгоритмам…
Тут кстати есть довольно свежии лекции по квантовым алгоритмам https://www.cs.umd.edu/~amchilds/qa/
- #1005Здесь автор пилит UI-шку для экспериментов с обычным рлем…
Здесь автор пилит UI-шку для экспериментов с обычным рлем https://github.com/dvalenciar/ReinforceUI-Studio дока тут https://docs.reinforceui-studio.com/welcome…