數(shù)據(jù)類型的精度和功率一直是研討者取舍的要點(diǎn)。
數(shù)據(jù)類型的改動將直接影響權(quán)重存儲和內(nèi)存帶寬的占用。盡管MXFP4比規(guī)范FP4好得多,

怎樣經(jīng)過改動數(shù)據(jù)類型下降模型運(yùn)轉(zhuǎn)本錢?這兒的邏輯是這樣的:
模型的運(yùn)轉(zhuǎn)本錢主要由權(quán)重存儲和內(nèi)存帶寬兩個部分組成。MXFP4供給了極高的性價比,芯片的浮點(diǎn)吞吐量就能翻倍 。在大言語模型場景下簡直沒有質(zhì)量丟失 ,0.078125、運(yùn)轉(zhuǎn)MXFP4模型并不要求硬件有必要原生支撐FP4