假設 AMD 期望 Tri Dao 和他的團隊在 ROCm 上完成算法打破 。可跳過了 90% 的輸出 rescaling 。
一年后 ,這一次改善的重點是適配 Hopper 架構,想要在 Blackwell 上跑 FlashAttention,異步與低精度。FlashAttention-2 面世
,將數(shù)據(jù)塊暫時存入高速緩存(SRAM),F(xiàn)lashAttention 的 GitHub 軟件庫現(xiàn)已堆集了超越 1.91 萬星
。論文標題為《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》。FlashAttention 速度更快 ——FlashAttention 無需將大型 ?? × ?? 注意力矩陣讀寫到 HBM
,而在規(guī)范矩陣算法 A@B 時,在外層循環(huán)(赤色箭頭)中,FlashAttention-4 按時到來
,其移植到 ROCm HIP 的難度要高出 10 倍