75% !經(jīng)過將縮放塊巨細(xì)降至16和運(yùn)用FP8縮放因子來進(jìn)步質(zhì)量。
但是,MXFP4經(jīng)過將一組高精度數(shù)值(默許32個(gè))乘以一個(gè)公共縮放因子(這個(gè)縮放因子是一個(gè)8位二進(jìn)制指數(shù))。然后在數(shù)值之間完成更細(xì)的粒度 。旨在下降數(shù)據(jù)中心組件本錢并進(jìn)步可獲取性。
數(shù)據(jù)類型的改動(dòng)將直接影響權(quán)重存儲(chǔ)和內(nèi)存帶寬的占用
。一些模型開發(fā)者,直接把這4個(gè)BF16數(shù)值:0.0625、
由此,MXFP4在把內(nèi)存占用降為同規(guī)劃BF16模型的四分之一的一起,經(jīng)過改動(dòng)數(shù)據(jù)類型就能完成推理本錢的降本增效。一個(gè)B200SXM模塊的稠密BF16運(yùn)算功能約為2.2 petaFLOPS,這一操作的直接動(dòng)機(jī)(收益)便是讓模型運(yùn)轉(zhuǎn)本錢變得愈加廉價(jià)。權(quán)重存儲(chǔ)巨細(xì)是FP32的1/8
,哪怕是只要16GB顯存的顯卡也能跑200億參數(shù)的版別