gonzo-обзоры ML статей@gonzo_ML· 24 246 subs

RLHF, RLVR, RLIF! https://t.me/gonzoMLpodcasts/375 В этом есть что-то…

4 июл. 2025 г.6 742 views89 forwardsОткрыть в Telegram →

~~RLHF~~, ~~RLVR~~, RLIF! https://t.me/gonzo_ML_podcasts/375 В этом есть что-то интересное. Не надо внешних ревордов, достаточно внутреннего реворда про убеждённость модели. Я пока не до конца понимаю, почему именно здесь не возникают проблемы overconfidence (что вроде всегда было типично для DL), а также почему online обучение приводит к стабильности, а не наоборот. Также интересно, что и в таком режиме ризонинг возникает внутри модели (как и с GRPO у DeepSeek) — этот bias про ризонинг таки заложен датасетами или оно по какой-то другой причине каждый раз рождается.

Источник

https://t.me/gonzo_ML/3767

Канал gonzo-обзоры ML статей · опубликовано 4 июл. 2025 г.

Из этого канала