gonzo-обзоры ML статей@gonzo_ML· 24 246 subs

Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными…

3 февр. 2026 г.3 297 views6 forwardsОткрыть в Telegram →

Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами

Источник

https://t.me/gonzo_ML/4701

Канал gonzo-обзоры ML статей · опубликовано 3 февр. 2026 г.

Из этого канала

#4702"Spurious Rewards Paradox Когда бахнул R1 и все дружным строем побежали пилить…
"Spurious Rewards Paradox Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали…
#4703Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и…
Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B.
#4704"Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух…
"Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух траекторий с температурой 0.7 — траекторией с корректным ответом и с…
#4700а это на тему стабильности — так выглядел moltface, когда я начинал писать этот…
а это на тему стабильности — так выглядел moltface, когда я начинал писать этот пост. сейчас вроде уже отпустило
#4699регион интернациональных форумов на карте эмбеддингов
регион интернациональных форумов на карте эмбеддингов