~~RLHF~~, ~~RLVR~~, RLIF! https://t.me/gonzo_ML_podcasts/375 В этом есть что-то интересное. Не надо внешних ревордов, достаточно внутреннего реворда про убеждённость модели. Я пока не до конца понимаю, почему именно здесь не возникают проблемы overconfidence (что вроде всегда было типично для DL), а также почему online обучение приводит к стабильности, а не наоборот. Также интересно, что и в таком режиме ризонинг возникает внутри модели (как и с GRPO у DeepSeek) — этот bias про ризонинг таки заложен датасетами или оно по какой-то другой причине каждый раз рождается.