"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы… — @gonzo_ML

"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4. Эта версия конкретно заточена на Blackwell (B200, GB200), старая версия с заточкой на Hopper на новой архитектуре работает сильно субоптимально. Интересные особенности Blackwell в том, что архитектура очень неровно масштабировалась с предыдущих поколений, теперь матричные/тензорные модули уже не самое узкое место, им стала ""обычная"" математика. FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling __Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao__ Статья: https://arxiv.org/abs/2603.05451 Код: https://github.com/Dao-AILab/flash-attention/tree/main/flash_attn/cute Ревью: https://arxiviq.substack.com/p/flashattention-4-algorithm-and-kernel # TL;DR ЧТО сделали: Авторы представили совместный аппаратно-программный дизайн алгоритма для вычисления точного внимания, оптимизированный специально под архитектуру NVIDIA Blackwell. Метод вводит программную эмуляцию экспоненциальных функций, условное масштабирование софтмакса и новый подход к использованию тензорных ядер через 2-CTA, чтобы обойти аппаратные блоки, которые не масштабируются так же быстро, как сырые вычислительные мощности для матричного умножения. ПОЧЕМУ это важно: Железо датацентров сейчас переживает экстремальное асимметричное масштабирование. Поскольку тензорные ядра в Blackwell более чем в два раза быстрее предыдущего поколения, а пропускная способность памяти и блоки вычисления экспонент застряли на месте, старые алгоритмы оставляют огромные вычислительные мощности простаивать. Тщательно перестроив математику под физический пайплайн, этот подход достигает 1613 TFLOPs/s, закладывая необходимый фундамент для эффективного деплоя моделей с длинным контекстом на кластерах следующего поколения. Оптимизировать тут: https://t.me/gonzo_ML_podcasts/2732"

Из этого канала