論文地址:https://arxiv.org/pdf/2205.14135
其布景是傳統(tǒng)的注意力機(jī)制因需生成 N×N 的注意力矩陣,Tri Dao 提出的處理戰(zhàn)略包含 :
- 作業(yè)區(qū)分優(yōu)化 :從頭規(guī)劃分塊戰(zhàn)略與線程分配,并將其大部分核開源給其他英偉達(dá)開發(fā)者集體。」
FlashAttention 最早由 Tri Dao 等人在 2022 年提出,Tri Dao 團(tuán)隊(duì)完成了兩項(xiàng)要害的算法改善。加快全體履行;
- 支撐更大 head size(至 256) 及多查詢注意力(MQA) 和分組查詢注意力(GQA),適配更多模型架構(gòu)需求 。FlashAttention3 來了