FP4 All the Way: Fully Quantized Training of LLMs [Статья][Анонимный не анонимный репозитрий] 📘 Введение Висело оно у меня давно в бэклоге, но в кулуарах напомнили. С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно. Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры. И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.
FP4 All the Way: Fully Quantized Training of LLMs [Статья][Анонимный не…
Из этого канала
- #3986🔬 Метод Форматы FP4 Первым делом исследуют конфигурации форматов FP4. Напомню,…
🔬 Метод Форматы FP4 Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4…
- #3987Это выглядит просто бомбически! Можно ли сделать такой test-time scaling, чтобы…
Это выглядит просто бомбически! Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом…
- #3989"Вот вам ещё воскресное, про книги. Прочитал за лето пару книжек про нейтрино и…
"Вот вам ещё воскресное, про книги. Прочитал за лето пару книжек про нейтрино и людей вокруг него.
- #3984More FP4 training is coming!
More FP4 training is coming!
- #3983Недавно упоминали термодинамические вычисления, и тут образовалась подборка…
Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме: Thermodynamic Natural Gradient Descent, также может…