https://github.com/researchim-ai/models-at-home ребятки, мейн обновлен) sdpo теперь поддерживает lora/qlora рекомендую lora. В целом в базовом сетапе оно теперь даже в 12гб vram (у меня за 11.5 гб не вылезало) должно влезти. Но наверное 16 получше будет завтра информации позавозим думаю про обучение и вот это все и наверное с re-rl поработаю
https://github.com/researchim-ai/models-at-home ребятки, мейн обновлен) sdpo…
0 viewsОткрыть в Telegram →
Из этого канала
- #5913TheoremForge: Scaling up Formal Data Synthesis with Low-Budget Agentic Workflow…
TheoremForge: Scaling up Formal Data Synthesis with Low-Budget Agentic Workflow https://arxiv.org/abs/2601.17332 https://github.com/timechess/TheoremForge
- #5914Ребятки как дату для доказательств теорем генерить можем? Я в re-rl хочу…
Ребятки как дату для доказательств теорем генерить можем? Я в re-rl хочу затащить и потом в модельки подключить
- #5916в справку и доки добавил немножко инфы
в справку и доки добавил немножко инфы
- #5911Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability…
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability https://arxiv.org/abs/2601.18778 https://www.alphaxiv.org/overview/2601.18778
- #5910qlora тоже воркс кстати
qlora тоже воркс кстати