ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь возможность претренить свои модельки а чел тут через grpo пытается модельку чисто обучить. причем 4б у него фейл полный и он переключился на a3b-30b квен и все у него поехало я кстати слышал что для моделек условно < 15B стоит делать полный sft всегда а для > 15B всегда rl