More FP4 training is coming!
More FP4 training is coming!
Из этого канала
- #3985FP4 All the Way: Fully Quantized Training of LLMs [Статья][Анонимный не…
FP4 All the Way: Fully Quantized Training of LLMs [Статья][Анонимный не анонимный репозитрий] 📘 Введение Висело оно у меня давно в бэклоге, но в кулуарах…
- #3986🔬 Метод Форматы FP4 Первым делом исследуют конфигурации форматов FP4. Напомню,…
🔬 Метод Форматы FP4 Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4…
- #3987Это выглядит просто бомбически! Можно ли сделать такой test-time scaling, чтобы…
Это выглядит просто бомбически! Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом…
- #3983Недавно упоминали термодинамические вычисления, и тут образовалась подборка…
Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме: Thermodynamic Natural Gradient Descent, также может…
- #3979Детали апдейта DeepSeek-V3.1 подъехали…
Детали апдейта DeepSeek-V3.1 подъехали https://api-docs.deepseek.com/news/news250821