關于 Blackwell 上在歸約維度 K 較小的核算場景中 ,參看機器之心報導《英偉達又賺到了!
FlashAttention-2 面世,



據介紹,而 CUDA C++ 移植到 ROCm HIP 則更簡單。
參閱鏈接
https://x.com/tri_dao/status/1960217005446791448
https://x.com/SemiAnalysis_/status/1960070677379133949
https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/
本文來自微信大眾號 “機器之心”(ID:almosthuman2014)
,
一、進步并行功率,
有意思的是
,可認為 TogetherAI/Tri Dao 付出 5000 萬美元來發動 ROCm 生態系統 。FlashAttention 循環遍歷 K 和 V 矩陣的塊,異步與低精度