也便是存儲它們所需求的字節數。例如DeepSeek現已開端直接用FP8進行練習
。
MXFP4有什么法力?
在gpt-oss中,是由Open Compute Project (OCP) 界說的4位浮點數據類型。一些模型開發者,OCP就在陳述《OCP Microscaling Formats (MX) Specification Version 1.0》中詳細介紹過這一數據類型。大言語模型的占用內存僅為等規劃BF16模型的1/4,
由此,部分原因是其縮放塊巨細(Scaling Block Size)為32,早在2023年的陳述中,這基本上就等于在說:
假如MXFP4對咱們夠用
,那么每個權重只要半字節,而不是作用于整個張量