Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они неплохо бустанутся. Авторы считают что это связано с тем, что квены даже с рандомными наградами начинают писать больше питон кода во время RLя и получают корректные результаты (они изначально умеют решать задачки кодом) А с лламой и Olmo это не работает (Учите питон, крч) https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f https://github.com/ruixin31/Rethink_RLVR/tree/main PS собираемся и собираем интересное по ИИшке в https://t.me/researchim