по сути самая мощная по оптимизациям комбинация сейчас доступная это DeepSpeed Zero 3 + Cpu Offload + liger kernels + flash attention Qwen 2.5 1.5B с 4к контекстом в sft в full трене батч сайз 5 2гб данных пишет где-то ~140 часов будет пробегать вроде хорошо занимаюсь тестами всех стадий а потом в мейн много чего поправлено