Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами
Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными…
Из этого канала
- #4702"Spurious Rewards Paradox Когда бахнул R1 и все дружным строем побежали пилить…
"Spurious Rewards Paradox Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали…
- #4703Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и…
Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B.
- #4704"Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух…
"Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух траекторий с температурой 0.7 — траекторией с корректным ответом и с…
- #4700а это на тему стабильности — так выглядел moltface, когда я начинал писать этот…
а это на тему стабильности — так выглядел moltface, когда я начинал писать этот пост. сейчас вроде уже отпустило
- #4699регион интернациональных форумов на карте эмбеддингов
регион интернациональных форумов на карте эмбеддингов