DeepSeek 推出了 V3.1 版別,簡略過一下亮點:混合推理架構:一個模型一同支撐考慮方法與非考慮方法。更高的考慮功率:比較 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短時刻內給出答案。更強的 Agent 才能:經過 Post-Training 優化,新模型在東西運用與智能體使命中的體現有較大提高。
但更讓人獵奇的是,DeepSeek 還在置頂留言里著重:UE8M0 FP8是針對行將發布的下一代國產芯片規劃。
這句話放在當下的語境里,就顯得耐人尋味——究竟不久前,相關部分才約談英偉達,要求解說 H20 芯片的安全危險。
也正因如此,幾個技能性的名詞才變得分外值得重視:參數精度究竟是什么?為什么芯片會決議它的方法?
這些改動背面,或許預示著國內 AI 保存正在進入一個軟硬件協同的新階段。
1
看不見的小數點,決議了大模型的命運
在深度學習里,參數便是模型的大腦神經元之間的“權重”,練習時需求不斷更新、存儲、核算。精度(precision)便是用多少位二進制數來記載這些參數。
在介紹 FP8 之前,先得回到核算機最底子的問題:機器是怎樣存數字的?
最簡略的方法叫整數(int)。它就像算盤上的珠子,能表明的是一個個準確的格子:1、2、3、4。但整數無法表明 3.14 這樣的圓周率,也很難處理科學核算中常見的極大值或極小值。
所以,科學家們發明晰浮點數(floating point),也便是 FP8 中的 FP。望文生義,小數點的方位是“起浮”的,既能寫成 3.14159 這樣的日常數字,也能寫成 6.02×1023 這樣地理級的指數。浮點數本質上便是把一個數字拆成三部分:符號位、指數、尾數。符號位決議正負,指數決議小數點的方位,尾數決議精度。
浮點數底子能夠表明任何數字,價值是,相同的內存位數,用得越多,表明得越準確;用得越少,表明得越粗糙。
在很長一段時刻里,FP32(32 位浮點數)是核算機的黃金規范,它精度高,規劃廣,簡直是科學核算、圖畫處理、AI 的通用方法。但當大模型的參數量級脹大到數千億乃至萬億,FP32 就顯得臃腫了。每一條權亞洲素人天然素人Av在線觀看重都要用 32 位去存,顯存底子不夠用,練習時刻也被拖長。
所以,保存開端測驗下降精度。先是 FP16(16 位浮點數),后來是 FP8(8 位浮點數)。舉個不恰當比方,就像把一張 4K 高清相片壓縮成 480p 的小圖,細節丟失在所難免,但能存更多張,還能傳輸得更快。
用英偉達技能博客里的一張圖能夠直觀的看出來,相同用 H100,FP8 的速度遠遠高于 FP16。
練習大模型時,最大的瓶頸不是算法,而是算力和顯存。NVIDIA 官方博客指出,FP8 在不明顯獻身模型作用的前提下,能讓吞吐量翻倍、顯存占用折半,這是練習 GPT 等級大模型時極具吸引力的優勢。
換句話說,在大模型這種尋求“規劃勝過精度”的賽道上,FP8 成了必然選擇。
英偉達技能博客:https://developer.nvidia.com/zh-cn/blog/fp8-precision-performance/
2
誰擬定規矩,誰就把握算力
那 FP8 就 FP8 ,DeepSeek說的“UE8M0 FP8”是什么?為什么還要適配國產芯片?
首要,FP8 自身并不是一個徹底中立的國際規范。表面上,NVIDIA 從前和 Intel、Arm 一同推動過 FP8 的規范化,推出了 E4M3 和 E5M2 兩種格局,別離偏重精度和數值規劃,看起來像是一次闖禍的保存規范化舉動。
但在真實落地時,NVIDIA 在自家的 GPU 上加了許多“優化”:比方 per-tensor scaling、per-block scaling 這樣的動態縮放戰略,用來處理 FP8 動態規劃太窄、簡單溢出的問題。又比方在 Tensor Core 上內置了針對 FP8 的指令集優化,使得 FP8 在 H100 上能直接跑滿算力。這些優化細節沒有寫進統一規范里,卻被深度綁定在 NVIDIA 的硬件和軟件棧中。
NVIDIA 最新的 Blackwell 架構原生支撐一種全新的“微縮浮點格局”(Microscaling formats),包含 MXFP8(8?bit 浮點)、MXFP6(6?bit)、MXFP4(4?bit)。有研究者在高質量數據集進步行了大規劃驗證:一個 8 億參數的模型,在運用了 MXFP8?E4M3 格局和精心規劃的數值轉化戰略后,練習成果簡直達到了傳統 BF16(bfloat16)的水平。說白了,在 Blackwell 架構中,運用 MXFP8 格局的預練習作用體現最好。
參閱論文:Recipes for Pre-training LLMs with MXFP8 https://arxiv.org/pdf/2506.08027
回到 DeepSeek 在 V3.1 發布官微談論中著重的UE8M0 FP8,并不是 NVIDIA 官方的 FP8 規范,而是一種變體格局。它更挨近一種極點的規劃優先戰略,簡直放棄了小亞洲素人天然素人Av在線觀看數部分精度。
這就像你甘愿用一把刻度粗糙的卷尺,也要保證它滿足長,能從房間一向量到操場。盡管看不到毫米級的細節,但至少不會量到一半溢出。
為什么要做這樣的取舍?由于國產 GPU 在底層電路和指令集規劃上,并沒有徹底兼容 NVIDIA 的 FP8 計劃。正如上文說到的,英偉達有自己的“優化”,而國產 GPU 并不具有這種“優化”,假如直接照搬,成果往往是數值不安穩,梯度爆破,練習底子收不住。
結合前幾天 DeepSeek R2 延期是由于國產芯片不可的新聞,DeepSeek 在這個時刻發聲仍是很有必要的。DeepSeek 必須在模型端做出退讓:用UE8M0這種“規劃優先”的格局,來適配國產芯片的硬件邏輯,保證國產芯片能跑通的折中計劃。
這是一種軟硬件之間的“相互成果”。模型廠商樂意獻身一些細節精度,換來國產芯片的安穩運轉;而芯片廠商也經過這種協作,逐步建立起自己的 FP8 生態。
3
國產 GPU 的 FP8 聯盟
當然,由此發生的另一個問題是,DeepSeek 在哪家國產芯片上練習啊?
(此處不做為任何出資主張,純屬小道消息,僅僅為了湊字數)
比方沐曦曦云 C600芯片就在 2025 年正式露臉。官方清晰聲稱,它原生支撐 FP8 精度,而且采用了多精度混合算力架構:既能運轉傳統的 FP32/FP16 使命,也能用 FP8 高效加快大模型練習。
C600 其實早在 2024 年 10 月就完結流片,現在正處于小批量量產階段。與此一同,下一代 C700 系列也現已立項,估計在 2026 年 Q2 進入流片測驗。
除了沐曦,燧原科技也在 2025 年推出了最新的L600 芯片。這顆芯片歷時兩年半開發,最大的亮點是采用了訓推一體的架構:既能承當大模型的練習使命,又能直接用于推理布置。更重要的是,L600 原生支撐 FP8 低精度。這與 DeepSeek 模型的精度戰略正好對齊。
UE8M0 僅僅一個冷冰冰的精度參數,放在論文里或許只值半行字。可在今日,它卻像是一種信號:國產芯片廠商和大模型公司,開端真實坐到了一張桌子上,去談怎樣一同往前走。大模型不再順從英偉達的算力邏輯,而是測驗和國產硬件對齊,哪怕進程并不高雅。
本文來自微信大眾號“硅星人Pro”,作者:董道力,36氪經授權發布。