Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16…

1 нояб. 2025 г.3 781 views49 forwardsОткрыть в Telegram →

Пока сильно не погружался но тут пишут что надо GRPO и ллмный рл делать в fp16 а не в bf16 тюн становится сильно стабильнее Defeating the Training-Inference Mismatch via FP16 https://arxiv.org/abs/2510.26788 https://www.alphaxiv.org/ru/overview/2510.26788v1 https://github.com/sail-sg/Precision-RL

Источник

https://t.me/AGI_and_RL/1233

Канал Агенты ИИ | AGI_and_RL · опубликовано 1 нояб. 2025 г.

Из этого канала

#1234шьтошь. разочарован результатом. я думал что щас заряжу дистил дипсика 8б и…
шьтошь. разочарован результатом. я думал что щас заряжу дистил дипсика 8б и пока-пока, у меня будет примерно 18 миллионов долларов в бедкоенах за неделю а оно…
#1235Выезжает обнова гптшки https://openai.com/index/gpt-5-1/ синкинг будет меньше…
Выезжает обнова гптшки https://openai.com/index/gpt-5-1/ синкинг будет меньше думать на простых задачах и дольше на сложных
#1236Там сорева по оптимизации кернелов под разные задачи от нвидии…
Там сорева по оптимизации кернелов под разные задачи от нвидии https://www.gpumode.com/v2/home ```Over the next 3 months, we will release 4 problems for you to…
#1231опенаишный секурити агент на гпт5…
опенаишный секурити агент на гпт5 https://openai.com/index/introducing-aardvark/ щас пока приватная бета
#1229"А вот тут вроде красивое и полезное HF дропнули большую статью-плейбук про…
"А вот тут вроде красивое и полезное HF дропнули большую статью-плейбук про ""трейн современных ллм"" скомпилилировали все что поняли пока работали над своими…