Я недавно увидел проект Heretic ( https://github.com/p-e-w/heretic ), и там они интересную вещь делают - обучают только attn.o_proj и mlp.down_proj Т.е, чтобы убрать из модели цензуру (а это изменение поведения модели) - достаточно манипуляций с этими матрицами (скорее всего, добавить модели цензуру можно тоже через них, но это другая тема) Мне сразу стало интересно, а что если SFT/RL тоже делать только на этих матрицах? Какая разница по лоссу выйдет между полным обучением и таким?