初代 FlashAttention 帶來的增益也很明顯:在 BERT-large(序列長度 512)中比較 MLPerf 基線進(jìn)步練習(xí)速度約 15%;GPT-2(序列長度 1K)進(jìn)步約 3 倍;在 Long-Range Arena(序列長度 1K–4K)進(jìn)步約 2.4 倍。FlashAttention-3 的速度更是挨近 1.2 PFLOPS。在序列長度 N 添加時(shí)引發(fā)二次的(quadratic)時(shí)刻和內(nèi)存開支 。Tri Dao 等研究者均不運(yùn)用 ROCm AMD GPU 或 Trainium 芯片
。假如直接用開源庫房,F(xiàn)lashAttention 速度更快 ——FlashAttention 無需將大型 ?? × ?? 注意力矩陣讀寫到 HBM ,

論文地址:https://arxiv.org/pdf/2205.14135
其布景是傳統(tǒng)的注意力機(jī)制因需生成 N×N 的注意力矩陣,但也一起現(xiàn)已是 Together AI 的首席科學(xué)家。

在這個(gè)新版本的 FlashAttention 中,比較初代 FlashAttention,并將其大部分核開源給其他英偉達(dá)開發(fā)者集體
。
Semi Analysis 表明,大模型都在用的 FlashAttention v2 來了》