Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество лучше и кернелы быстрее. Статью лайкать на HF Daily Papers. Кернелы для RTX 5090 (СС `120a`) на GitHub. Для B200 и B300 еще в разработке.
Quartet II Выложили препринт новой статьи про претрен LLMок в NVFP4. Качество…
Из этого канала
- #5894завтра буду перерабатывать интерфейс работы с ревардами. мне не нравится…
завтра буду перерабатывать интерфейс работы с ревардами. мне не нравится нынешний конструктор правил в целом-то он норм но мб хочется дать простопользователю…
- #5895https://github.com/researchim-ai/models-at-home мейн немножко обновил, завез…
https://github.com/researchim-ai/models-at-home мейн немножко обновил, завез sdpo. пока все в тестовом режиме.
- #5896Рад поделиться тем, что у нас с ребятами вышла папира VLA для роботов на HF:…
Рад поделиться тем, что у нас с ребятами вышла папира VLA для роботов на HF: https://huggingface.co/papers/2602.00919 Сейчас мы топ-2, но боремся с KIMI-2.5…
- #5892кстати. стандартный грпо на qwen 1.5b на gsm8k-ru ревардхакал всегда у меня и…
кстати. стандартный грпо на qwen 1.5b на gsm8k-ru ревардхакал всегда у меня и оставался на реварде 1.
- #5891окей, спасибо за разъяснение)
окей, спасибо за разъяснение)