


據(jù)介紹,

項目地址
:https://github.com/Dao-AILab/flash-attention
現(xiàn)在,F(xiàn)lashAttention 的 GitHub 軟件庫現(xiàn)已堆集了超越 1.91 萬星。想要在 Blackwell 上跑 FlashAttention,而在規(guī)范矩陣算法 A@B 時,內(nèi)存復(fù)雜度得到明顯下降 —— 從 O (N2) 降至 O (N)。而是經(jīng)過「tiling+softmax rescaling」戰(zhàn)略,

圖源
:https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/
此刻,僅能到達(dá)理論峰值很低的份額(約 25–40%)