https://github.com/WindyLab/LLM-RL-Papers
0 viewsОткрыть в Telegram →
Из этого канала
- #5764кстати ты пробовал что-нибудь на этих сетах тюнить? там вроде довольно длинные…
кстати ты пробовал что-нибудь на этих сетах тюнить? там вроде довольно длинные цепочки для мелкой 1.5b вначале надо sft поделать а потом уже грпо)
- #5765Да, у меня там есть модельки натюненные как раз на этих сетах Вот для мелкой не…
Да, у меня там есть модельки натюненные как раз на этих сетах Вот для мелкой не уверен, я тюнил 8B+
- #5766Ты же можешь трейсы-то не брать, а просто вопрос/ответ для grpo Натюнить cold…
Ты же можешь трейсы-то не брать, а просто вопрос/ответ для grpo Натюнить cold start на каких-то более мелких трейсах и завести grpo дальше У тебя 8192 не…
- #5762крутой) https://huggingface.co/datasets/attn-signs/gromov-max/ вот этот…
крутой) https://huggingface.co/datasets/attn-signs/gromov-max/ вот этот попробую прикрутить)
- #5761Я в свое время насобирал/напереводил
Я в свое время насобирал/напереводил