Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они неплохо бустанутся. Авторы считают что это связано с тем, что квены даже с рандомными наградами начинают писать больше питон кода во время RLя и получают корректные результаты (они изначально умеют решать задачки кодом) А с лламой и Olmo это не работает (Учите питон, крч) https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f https://github.com/ruixin31/Rethink_RLVR/tree/main PS собираемся и собираем интересное по ИИшке в https://t.me/researchim
Квены 2.5 можно подтюнить RLем с неправильными и рандомными наградами и они…
Из этого канала
- #1120https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B Пробуем
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B Пробуем
- #1121Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие…
Выложили QVikhr-3-1.7B на основе Qwen-3-1.7B, лучшая в классе и обгоняет лучшие модели. Ризонинг прямо сейчас выключен, будет позже.
- #1122Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда…
Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда опенсурсные модельки будут обходить закрытые? Что думаете? Условно я NewCompanyName, хочу…
- #1118Хм, похоже в Дипмаинде что-то крутое сделали... 😑 На самом деле я и сам…
Хм, похоже в Дипмаинде что-то крутое сделали... 😑 На самом деле я и сам попадаюсь на видосики которые сгенерены с veo 3, иногда правда сложно понять что это…
- #1117дипсики выложили обновку R1 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528…
дипсики выложили обновку R1 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 4 на ливкодбенче код ген 😎 https://livecodebench.github.io/leaderboard.html…