"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4. Эта версия конкретно заточена на Blackwell (B200, GB200), старая версия с заточкой на Hopper на новой архитектуре работает сильно субоптимально. Интересные особенности Blackwell в том, что архитектура очень неровно масштабировалась с предыдущих поколений, теперь матричные/тензорные модули уже не самое узкое место, им стала ""обычная"" математика. FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling __Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao__ Статья: https://arxiv.org/abs/2603.05451 Код: https://github.com/Dao-AILab/flash-attention/tree/main/flash_attn/cute Ревью: https://arxiviq.substack.com/p/flashattention-4-algorithm-and-kernel # TL;DR ЧТО сделали: Авторы представили совместный аппаратно-программный дизайн алгоритма для вычисления точного внимания, оптимизированный специально под архитектуру NVIDIA Blackwell. Метод вводит программную эмуляцию экспоненциальных функций, условное масштабирование софтмакса и новый подход к использованию тензорных ядер через 2-CTA, чтобы обойти аппаратные блоки, которые не масштабируются так же быстро, как сырые вычислительные мощности для матричного умножения. ПОЧЕМУ это важно: Железо датацентров сейчас переживает экстремальное асимметричное масштабирование. Поскольку тензорные ядра в Blackwell более чем в два раза быстрее предыдущего поколения, а пропускная способность памяти и блоки вычисления экспонент застряли на месте, старые алгоритмы оставляют огромные вычислительные мощности простаивать. Тщательно перестроив математику под физический пайплайн, этот подход достигает 1613 TFLOPs/s, закладывая необходимый фундамент для эффективного деплоя моделей с длинным контекстом на кластерах следующего поколения. Оптимизировать тут: https://t.me/gonzo_ML_podcasts/2732"
"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы…
Из этого канала
- #4925Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз…
Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз от китайцев.
- #4930Свежего Пенроуза вам в ленту. С Тегмарком. К Пенроузу можно относиться…
Свежего Пенроуза вам в ленту. С Тегмарком. К Пенроузу можно относиться по-разному, но как пища для ума он точно хорош.
- #4931Земля более не будет вращаться под ногами лишь одного солипсиста Иванова.…
Земля более не будет вращаться под ногами лишь одного солипсиста Иванова. Теперь все солипсисты будут вращать её одновременно! Вообще потенциально большая тема…
- #4913Интересная работа про мультимодальные модели с единым бэкбоном. Если их…
Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE.
- #4907Интересная работа конца того года. MLP внутри себя выучивает MoE (а также…
Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!).