Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они…

29 мая 2025 г.2 407 views30 forwardsОткрыть в Telegram →

Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они неплохо бустанутся. Авторы считают что это связано с тем, что квены даже с рандомными наградами начинают писать больше питон кода во время RLя и получают корректные результаты (они изначально умеют решать задачки кодом) А с лламой и Olmo это не работает (Учите питон, крч) https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f https://github.com/ruixin31/Rethink_RLVR/tree/main PS собираемся и собираем интересное по ИИшке в https://t.me/researchim

Источник

https://t.me/AGI_and_RL/1119

Канал Агенты ИИ | AGI_and_RL · опубликовано 29 мая 2025 г.

Из этого канала