Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16 а не в bf16 тюн становится сильно стабильнее Defeating the Training-Inference Mismatch via FP16 https://arxiv.org/abs/2510.26788 https://www.alphaxiv.org/ru/overview/2510.26788v1 https://github.com/sail-sg/Precision-RL