⚡️Анонсирован Flash Attention 4 Прирост по сравнению со стандартной…

26 авг. 2025 г.30 672 views203 forwardsОткрыть в Telegram →

⚡️Анонсирован Flash Attention 4 Прирост по сравнению со стандартной имплементацией из cuDNN доходит до 22% на Blackwell (SM100). Интересная особенность — Flash Attention 4 написан на Python с использованием CuTe DSL. Две основные оптимизации — эмуляция экспоненты через софт (нативная экспонента в железе слишком медленная) и новый алгоритм online softmax, который на 90% меньше рескейлит аутпут, за счёт чего и быстрее. Пока что есть только forward pass, так что потренировать с FA4 не выйдет 😭. Кернел @ai_newz

Источник

https://t.me/ai_newz/4130

Канал эйай ньюз · опубликовано 26 авг. 2025 г.

Из этого канала