ресечим/делаем (c) AI@researchim· 1 565 subs

"На моменте PreTraining, модель скорее всего выучивает все свои знания, на SFT…

24 янв. 2026 г.0 viewsОткрыть в Telegram →

"На моменте PreTraining, модель скорее всего выучивает все свои знания, на SFT она просто выучивает ""стиль"" предсказания следующего токена, в нужной манере (ассистентской, например) Все нужные знания уже выучили в QKV/up_proj, gate А o_proj и down_proj в свою очередь, играют роль ""направляющих"", которые определяют что именно добавить в residual Если это действительно так - можно обучать значительно меньше параметров, получив тот же результат И при этом, не потеряв ничего с pretraining (катастрофического забывания не будет)"

Источник

https://t.me/researchim/5741

Канал ресечим/делаем (c) AI · опубликовано 24 янв. 2026 г.

Из этого канала