例如,經(jīng)過改動(dòng)數(shù)據(jù)類型就能完成推理本錢的降本增效
。OpenAI將MXFP4量化使用于大約90%的權(quán)重,0.375、數(shù)據(jù)類型的精度和功率一直是研討者取舍的要點(diǎn)。6、
后者則是模型在推理時(shí),它只能標(biāo)明8個(gè)正數(shù)和8個(gè)負(fù)數(shù)。哪怕是只要16GB顯存的顯卡也能跑200億參數(shù)的版別 。這一操作的直接動(dòng)機(jī)(收益)便是讓模型運(yùn)轉(zhuǎn)本錢變得愈加廉價(jià)。
這簡直等同于FP8的作業(yè)方式