Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16 а не в bf16 тюн становится сильно стабильнее Defeating the Training-Inference Mismatch via FP16 https://arxiv.org/abs/2510.26788 https://www.alphaxiv.org/ru/overview/2510.26788v1 https://github.com/sail-sg/Precision-RL
Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16…
Из этого канала
- #1234шьтошь. разочарован результатом. я думал что щас заряжу дистил дипсика 8б и…
шьтошь. разочарован результатом. я думал что щас заряжу дистил дипсика 8б и пока-пока, у меня будет примерно 18 миллионов долларов в бедкоенах за неделю а оно…
- #1235Выезжает обнова гптшки https://openai.com/index/gpt-5-1/ синкинг будет меньше…
Выезжает обнова гптшки https://openai.com/index/gpt-5-1/ синкинг будет меньше думать на простых задачах и дольше на сложных
- #1236Там сорева по оптимизации кернелов под разные задачи от нвидии…
Там сорева по оптимизации кернелов под разные задачи от нвидии https://www.gpumode.com/v2/home ```Over the next 3 months, we will release 4 problems for you to…
- #1231опенаишный секурити агент на гпт5…
опенаишный секурити агент на гпт5 https://openai.com/index/introducing-aardvark/ щас пока приватная бета
- #1229"А вот тут вроде красивое и полезное HF дропнули большую статью-плейбук про…
"А вот тут вроде красивое и полезное HF дропнули большую статью-плейбук про ""трейн современных ллм"" скомпилилировали все что поняли пока работали над своими…