ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь возможность претренить свои модельки а чел тут через grpo пытается модельку чисто обучить. причем 4б у него фейл полный и он переключился на a3b-30b квен и все у него поехало я кстати слышал что для моделек условно < 15B стоит делать полный sft всегда а для > 15B всегда rl
ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь…
0 viewsОткрыть в Telegram →
Из этого канала
- #5891окей, спасибо за разъяснение)
окей, спасибо за разъяснение)
- #5892кстати. стандартный грпо на qwen 1.5b на gsm8k-ru ревардхакал всегда у меня и…
кстати. стандартный грпо на qwen 1.5b на gsm8k-ru ревардхакал всегда у меня и оставался на реварде 1.
- #5893Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество…
Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество лучше и кернелы быстрее. Статью лайкать на HF Daily Papers.
- #5889у него не сильно отличается кажется способ тренировки от твоего? он только взял…
у него не сильно отличается кажется способ тренировки от твоего? он только взял обычный калькулятор, а у тебя весь матан или я путаю?
- #5888ребятки, а sdpo кажись работает
ребятки, а sdpo кажись работает