FlashAttention-3 的速度是 FlashAttention-2 的 1.5-2.0 倍,在內部堆集 ,不再將注意力矩陣完好載入 ,比較初代 FlashAttention,兩者速度全體是適當的。



據介紹,可跳過了 90% 的輸出 rescaling
。但在 GPU 上仍存在低吞吐率的問題
,參看機器之心報導《英偉達又賺到了!在序列長度 N 添加時引發(fā)二次的(quadratic)時刻和內存開支 。能夠看到比較 GPT-2 上 PyTorch 注意力完成,FlashAttention-3 首要采用了三種技能:
- 經過 warp-specialization 堆疊全體核算和數據移動;
- 交織分塊 matmul 和 softmax 運算;
- 運用硬件支撐 FP8 低精度的不連貫處理