ресечим/делаем (c) AI@researchim· 1 565 subs

кстати. стандартный грпо на qwen 1.5b на gsm8k-ru ревардхакал всегда у меня и…

2 февр. 2026 г.0 viewsОткрыть в Telegram →

кстати. стандартный грпо на qwen 1.5b на gsm8k-ru ревардхакал всегда у меня и оставался на реварде 1. то есть он чисто копировал инструкцию) sdpo вроде вот с первого раза дошел до ~2 реварда понятно что все это корректируется ревардами нормальными и прочее. но сам факт

Источник

https://t.me/researchim/5892

Канал ресечим/делаем (c) AI · опубликовано 2 февр. 2026 г.

Из этого канала

#5893Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество…
Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество лучше и кернелы быстрее. Статью лайкать на HF Daily Papers.
#5894завтра буду перерабатывать интерфейс работы с ревардами. мне не нравится…
завтра буду перерабатывать интерфейс работы с ревардами. мне не нравится нынешний конструктор правил в целом-то он норм но мб хочется дать простопользователю…
#5895https://github.com/researchim-ai/models-at-home мейн немножко обновил, завез…
https://github.com/researchim-ai/models-at-home мейн немножко обновил, завез sdpo. пока все в тестовом режиме.
#5891окей, спасибо за разъяснение)
окей, спасибо за разъяснение)
#5890ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь…
ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь возможность претренить свои модельки а чел тут через grpo пытается модельку чисто…