⚡️Анонсирован Flash Attention 4 Прирост по сравнению со стандартной имплементацией из cuDNN доходит до 22% на Blackwell (SM100). Интересная особенность — Flash Attention 4 написан на Python с использованием CuTe DSL. Две основные оптимизации — эмуляция экспоненты через софт (нативная экспонента в железе слишком медленная) и новый алгоритм online softmax, который на 90% меньше рескейлит аутпут, за счёт чего и быстрее. Пока что есть только forward pass, так что потренировать с FA4 не выйдет 😭. Кернел @ai_newz