~~RLHF~~, ~~RLVR~~, RLIF! https://t.me/gonzo_ML_podcasts/375 В этом есть что-то интересное. Не надо внешних ревордов, достаточно внутреннего реворда про убеждённость модели. Я пока не до конца понимаю, почему именно здесь не возникают проблемы overconfidence (что вроде всегда было типично для DL), а также почему online обучение приводит к стабильности, а не наоборот. Также интересно, что и в таком режиме ризонинг возникает внутри модели (как и с GRPO у DeepSeek) — этот bias про ризонинг таки заложен датасетами или оно по какой-то другой причине каждый раз рождается.
~~RLHF~~, ~~RLVR~~, RLIF! https://t.me/gonzoMLpodcasts/375 В этом есть что-то…
Из этого канала
- #3768Pay Attention to Small Weights Chao Zhou, Tom Jacobs, Advait Gadhikar, Rebekka…
Pay Attention to Small Weights Chao Zhou, Tom Jacobs, Advait Gadhikar, Rebekka Burkholz Статья: https://arxiv.org/abs/2506.21374 Какая-то интересная тема про…
- #3769Итоговая идея -- надо сконцентрироваться на обновлении малых по магнитуде…
Итоговая идея -- надо сконцентрироваться на обновлении малых по магнитуде весов. Во-первых, благодаря оверпараметризации этого может быть достаточно.
- #3782"Субботнее нетрадиционное. Давно про книги не писал, и в частности всё никак не…
"Субботнее нетрадиционное. Давно про книги не писал, и в частности всё никак не напишу о двух крутых книгах, которые прочитал, ""Einstein's Mirror"" и ""The…
- #3766Шок! Сенсация! Трансформеры выиграли в лотерею! 😂…
Шок! Сенсация! Трансформеры выиграли в лотерею! 😂 https://t.me/gonzoMLpodcasts/369
- #3765Не про архитектуры и статьи, но тоже важно для контекста. Пока мы тут сидим,…
Не про архитектуры и статьи, но тоже важно для контекста. Пока мы тут сидим, Цукерберг вовсю собирает свою Superintelligence Labs, переманивая людей из ведущих…