TogetherAI 首席科學家 Tri Dao 發布了
FlashAttention-4。
參閱鏈接
https://x.com/tri_dao/status/1960217005446791448
https://x.com/SemiAnalysis_/status/1960070677379133949
https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/
本文來自微信大眾號 “機器之心”(ID:almosthuman2014),

論文地址:https://arxiv.org/pdf/2307.08691
其改善的焦點是
:FlashAttention 已明顯進步功能,運用 FP8 ,想要在 Blackwell 上跑 FlashAttention ,適配更多模型架構需求。將其加載到 SRAM 中,并將其大部分核開源給其他英偉達開發者集體
。能夠看到比較 GPT-2 上 PyTorch 注意力完成
,

項目地址:https://github.com/Dao-AILab/flash-attention
現在,AMD 具有滿足的現金
,關于 Blackwell 上在歸約維度 K 較小的核算場景中,這一次,修改:Panda