"На моменте PreTraining, модель скорее всего выучивает все свои знания, на SFT она просто выучивает ""стиль"" предсказания следующего токена, в нужной манере (ассистентской, например) Все нужные знания уже выучили в QKV/up_proj, gate А o_proj и down_proj в свою очередь, играют роль ""направляющих"", которые определяют что именно добавить в residual Если это действительно так - можно обучать значительно меньше параметров, получив тот же результат И при этом, не потеряв ничего с pretraining (катастрофического забывания не будет)"
"На моменте PreTraining, модель скорее всего выучивает все свои знания, на SFT…
0 viewsОткрыть в Telegram →
Из этого канала
- #5742я потестил русский и англиский 1.8 параметров . русский звучит с китайским…
я потестил русский и англиский 1.8 параметров . русский звучит с китайским акцентом 🤣🤣 но качество в любом случае хорошее
- #5747ребятки, а датасеты для grpo подходящие на русском знаете? то есть нужен вопрос…
ребятки, а датасеты для grpo подходящие на русском знаете? то есть нужен вопрос + чисто ответ надо что-то забить в конфиги для загрузки для grpo а-то в…
- #5748А на какую тематику?
А на какую тематику?
- #5740Я недавно увидел проект Heretic ( https://github.com/p-e-w/heretic ), и там они…
Я недавно увидел проект Heretic ( https://github.com/p-e-w/heretic ), и там они интересную вещь делают - обучают только attn.oproj и mlp.downproj Т.е, чтобы…
- #5739ну это все потом очень сильно тестить будем и мне щас нужно на разных сетах…
ну это все потом очень сильно тестить будем и мне щас нужно на разных сетах потеститься