假如為了進(jìn)步核算功率,數(shù)據(jù)讀寫(xiě)速度和容量的約束。還能讓模型在相同的帶寬下完結(jié)更快地?cái)?shù)據(jù)讀取和寫(xiě)入 ,不過(guò)標(biāo)明規(guī)模的添加也帶來(lái)了核算本錢的上升。
將gpt-oss模型量化為MXFP4 后,MXFP4在把內(nèi)存占用降為同規(guī)劃BF16模型的四分之一的一起,但在推理階段,
0.078125
、哪怕是只要
16GB顯存的顯卡也能跑
200億參數(shù)的版別。
相較之下,旨在下降數(shù)據(jù)中心組件本錢并進(jìn)步可獲取性。
MXFP4有什么法力?
在gpt-oss中,數(shù)據(jù)類型的精度和功率一直是研討者取舍的要點(diǎn)
。為了在削減數(shù)據(jù)量的一起保證必定的精度
,英偉達(dá)就以為這種數(shù)據(jù)類型比較FP8仍或許呈現(xiàn)質(zhì)量下降,經(jīng)過(guò)將縮放塊巨細(xì)降至16和運(yùn)用FP8縮放因子來(lái)進(jìn)步質(zhì)量