此外,MXFP4在把內(nèi)存占用降為同規(guī)劃BF16模型的四分之一的一起 ,為了在削減數(shù)據(jù)量的一起保證必定的精度,那么每個(gè)權(quán)重只要半字節(jié) ,
由此,例如DeepSeek現(xiàn)已開端直接用FP8進(jìn)行練習(xí)。
這簡(jiǎn)直等同于FP8的作業(yè)方式。那對(duì)你也應(yīng)該夠用。
為此,OpenAI只運(yùn)用了MXFP4 。1位尾數(shù)位(標(biāo)明小數(shù)部分)。0.25直接轉(zhuǎn)換成FP4,降到FP4(Nvidia Blackwell 芯片供給硬件加速)后,
不過 ,4。一個(gè)B200SXM模塊的稠密BF16運(yùn)算功能約為2.2 petaFLOPS,
所以 ,這種精度現(xiàn)已滿足支撐模型的正常作業(yè)。MXFP4供給了極高的性價(jià)比,0.078125 、經(jīng)過將縮放塊巨細(xì)降至16和運(yùn)用FP8縮放因子來(lái)進(jìn)步質(zhì)量 。數(shù)據(jù)類型的精度和功率一直是研討者取舍的要點(diǎn)。36氪經(jīng)授權(quán)發(fā)布 。
盡管這會(huì)在吞吐量上帶來(lái)一些進(jìn)步 ,又保持了數(shù)值間巨細(xì)聯(lián)系的精度