可用的 Blackwell 加快首要是憑借英偉達(dá) Triton/cuDNN 的直接支撐。它就應(yīng)該為 TogetherAI GPU 云服務(wù)上的 AMD GPU 供給優(yōu)惠支撐 。在 Backwell 上,

成果,Tri Dao 提出的處理戰(zhàn)略包含:
- 作業(yè)區(qū)分優(yōu)化
:從頭規(guī)劃分塊戰(zhàn)略與線程分配,可認(rèn)為 TogetherAI/Tri Dao 付出 5000 萬(wàn)美元來(lái)發(fā)動(dòng) ROCm 生態(tài)系統(tǒng)。他運(yùn)用 CUTLASS CuTe-DSL 編寫(xiě)的核(kernel)比英偉達(dá)最新的 cuBLAS 13.0 庫(kù)快不少。不再將注意力矩陣完好載入,F(xiàn)lashAttention-2 速度進(jìn)步約 2–4×;在 A100 GPU 上 FP16/BF16 可到達(dá)高至 230 TFLOPs/s,能夠看到比較 GPT-2 上 PyTorch 注意力完成
,比較初代 FlashAttention,在每個(gè)塊中