他還在這一年的晚些時候與 Albert Gu 一起提出了 Mamba。
現(xiàn)在,為了更好地將 softmax 核算與張量核核算堆疊 ,修改:Panda ,避免了很多讀寫開支 ,假設 AMD 期望 Tri Dao 和他的團隊在 ROCm 上完成算法打破 。但也一起現(xiàn)已是 Together AI 的首席科學家
。到了 2025 年,
又一年
,
此外,F(xiàn)lashAttention-3 的速度更是挨近 1.2 PFLOPS 。運用 FP8,即 H100 理論最大 FLOPS 運用率為 75%。能夠看到比較 GPT-2 上 PyTorch 注意力完成,
二
、然后打敗了 cuBLAS。

論文地址