"На моменте PreTraining, модель скорее всего выучивает все свои знания, на SFT она просто выучивает ""стиль"" предсказания следующего токена, в нужной манере (ассистентской, например) Все нужные знания уже выучили в QKV/up_proj, gate А o_proj и down_proj в свою очередь, играют роль ""направляющих"", которые определяют что именно добавить в residual Если это действительно так - можно обучать значительно меньше параметров, получив тот же результат И при этом, не потеряв ничего с pretraining (катастрофического забывания не будет)"