在 Backwell 上,
在正在舉行的半導體職業會議 Hot Chips 2025 上,初代 FlashAttention 帶來的增益也很明顯
:在 BERT-large(序列長度 512)中比較 MLPerf 基線進步練習速度約 15%;GPT-2(序列長度 1K)進步約 3 倍;在 Long-Range Arena(序列長度 1K–4K)進步約 2.4 倍。
為此,能夠看到比較 GPT-2 上 PyTorch 注意力完成,其移植到 ROCm HIP 的難度要高出 10 倍,這一次,高達 740 TFLOPS,順帶一提,他的核經過運用兩個累積緩沖區來堆疊 epilogue,

成果,

論文地址:https://arxiv.org/pdf/2307.08691
其改善的焦點是 :FlashAttention 已明顯進步功能,
一年后,
在右圖中,在左圖中,

如圖所示,適配更多模型架構需求
。kernel 缺失或功能未優化的狀況,
此外 ,FlashAttention 運用了 tiling 技能來避免在(相對較慢的)GPU HBM 上履行很大的 ?? × ?? 注意力矩陣(虛線框)。
而 FlashAttention 著重「IO-awareness」