一年一度Hotchips盛會(huì)正式拉開帷幕。來自全球各地的搶先廠商在會(huì)上同享了他們?cè)谛酒矫娴挠^念和規(guī)劃,在這篇整合文章中,咱們將同享來自英特爾、IBM以及草創(chuàng)RISC-V新貴的搶先CPU規(guī)劃,以及來自英偉達(dá)等GPU巨子的規(guī)劃。
以下為文章全文:
一款高功用 RISC-V 規(guī)劃
Condor Computing 是晶心科技的子公司,專心于開發(fā)高功用 RISC-V 中心。Cuzco 是他們的首個(gè)規(guī)劃,由一支僅有 50 名工程師的相對(duì)較小的團(tuán)隊(duì)完結(jié)。
現(xiàn)在有多家公司正在開發(fā)高功用 RISC-V 內(nèi)核。Condor 致力于成為職業(yè)俊彥,在相似的功耗規(guī)模內(nèi)供給最高的功用。RISC-V 生態(tài)體系仍在不斷老練,因而咱們現(xiàn)在正處于一個(gè)發(fā)展階段,未來仍有許多參加者能夠參加,但終究會(huì)閱歷一場(chǎng)淘汰賽,終究只剩下少數(shù)參加者。
從十分高的層面來看,Cuzco 的規(guī)劃與其他高功用處理器十分相似。這意味著它具有寬廣的前端、適當(dāng)深的 256 條目重排序緩沖區(qū)、8 條履行流水線等等。Condor 并不方案從頭創(chuàng)造輪子;他們的方針是打造一個(gè)比 RISC-V 生態(tài)體系中其他廠商更優(yōu)化的輪子。
Cuzco 是一個(gè)完好的 IP 規(guī)劃。也便是說,它不只是是一個(gè) CPU 中心,還具有緩存和一致性辦理功用;它根本上能夠接入內(nèi)存和 I/O 總線。但毋庸置疑,CPU 中心才是本次規(guī)劃的亮點(diǎn)——而這也是 Condor 最重視的關(guān)鍵。
Cuzco 契合 RISC-V 的 RVA23 規(guī)范,這是首個(gè)面向高功用 RISC-V 核算的首要規(guī)范。特別值得留意的是,該規(guī)范包括了對(duì)矢量指令的支撐,這關(guān)于高功用核算至關(guān)重要——更不用說以節(jié)能的辦法處理許多數(shù)據(jù)了。
Condor 為 Cuzco 選用了依據(jù)時(shí)刻的微架構(gòu)。這種架構(gòu)很快就會(huì)變得十分先進(jìn),無法在一篇實(shí)時(shí)博客中完好解說,但他們本質(zhì)上是運(yùn)用硬件編譯來進(jìn)行指令排序。簡(jiǎn)而言之,他們企圖通過規(guī)劃一種需求更少晶體管、然后更節(jié)能的辦法來改善亂序履行。從某些方面來看,這聽起來像是傳統(tǒng)的在軟件中(通過編譯器)預(yù)先進(jìn)行靜態(tài)指令調(diào)度辦法的一種變體,但其間一部分作業(yè)搬運(yùn)到了硬件上,但并沒有徹底摒棄這種主意。
終究,Condor 信賴他們的硬件調(diào)度體系能夠以比傳統(tǒng) OoO 調(diào)度更低的功耗和雜亂度完結(jié)更佳的作用。因?yàn)楣氖侨w功用的要害瓶頸,因而此處的優(yōu)化將帶來更高的功用。
Cuzco 選用依據(jù)切片的 CPU 規(guī)劃,一共最多 8 個(gè) CPU 中心。
與母公司的其他 OoO 規(guī)劃比較,Cuzco 團(tuán)隊(duì)以為,他們的規(guī)劃在 SPECint2006 中每時(shí)鐘的功用幾乎是 Andres 當(dāng)時(shí) AX65 中心的兩倍。
IP自身將以最多8個(gè)中心交給,具有私有的L2和同享的L3。通過寬CHI總線進(jìn)行銜接。
乖僻的日本CPU
今日的 Hot Chip 2025 CPU 專題中排名第二的是 Pezy Computing,這是一家乖僻的日本 CPU 開發(fā)公司,專門從事多指令多數(shù)據(jù) (MIMD) CPU 規(guī)劃。
MIMD 是 CPU 規(guī)劃中的一個(gè)陳舊概念,但在實(shí)踐國際中咱們并不常見。大多數(shù)規(guī)劃都是單指令多數(shù)據(jù) (SIMD) 的變體。但 MIMD 有潛力在功用上逾越 SIMD,因?yàn)樗軌蚋哐诺靥幚砀叨泉?dú)立/發(fā)散線程的場(chǎng)景,在這些場(chǎng)景中,只需少數(shù)(如果有的話)線程一起運(yùn)用同一條指令。
PEZY SC4s 選用臺(tái)積電 5nm 工藝制作。單顆芯片尺度較大,約為 556 平方毫米。
除了規(guī)劃作業(yè)之外,PEZY 還對(duì)其規(guī)劃進(jìn)行了仿真,以了解其功耗和功用體現(xiàn)。與 SC3 規(guī)劃比較,他們估計(jì)在履行 DGEMM 作業(yè)負(fù)載時(shí),其功率功率將進(jìn)步 2 倍以上。
在功用模仿中,他們看到 Smith-Waterman 算法(一種基因組序列比對(duì)算法)的功用進(jìn)步了近 4 倍。
第五代 PEZY 的規(guī)劃作業(yè)也已發(fā)動(dòng)。該公司正在規(guī)劃選用 3 納米(或更小)工藝的 PEZY 5,估計(jì)將于 2027 年發(fā)布。
IBM Power11 處理器架構(gòu)露臉
今日的 CPU 專題討論中,IBM 位列第三。藍(lán)色巨人在會(huì)上介紹了其最新一代 Power 架構(gòu)芯片 Power11。
IBM 首要回憶了 Power。它存在的原因,以及 IBM 對(duì)這款處理器和架構(gòu)的方針。IBM 十分重視體系,而不只是是出售 CPU。從單處理器和雙處理器體系,一向到 16 處理器的“無縫”體系。
回憶 Power 的發(fā)布前史,事實(shí)證明 Power10 對(duì) IBM 來說十分成功,“超出了咱們最斗膽的幻想”。因而,Power11 與 Power10 比較并沒有實(shí)質(zhì)性的改變;它建立在 Power10 的根底上,而不是替換了它的大部分功用。這也意味著,這次的 Power 11 不像曩昔的 Power 演示,乃至不像其他 Hot Chips 演示那樣,沒有那么多新內(nèi)容。
需求留意的是:Power11 體系現(xiàn)已發(fā)布。因而,本次 Hot Chips 演示更多的是為了讓咱們快速了解最新狀況,而不是用新信息來震懾咱們。
IBM 的理念是更少、更大的中心,然后依據(jù)需求添加中心數(shù)量。
Power10 帶來的一大改變是什么?需求將 AI 集成到處理器中心中。
在某些方面,IBM 憑仗其 Power10 中的矩陣乘法引擎現(xiàn)已走在了前列。但當(dāng)然,這還不行。
Power10 依據(jù)三星 7LPE 工藝打造。Power11 則依據(jù) 7nm 工藝(依據(jù)客戶反應(yīng)),因而關(guān)鍵在于速度而非密度。因而,它依據(jù)三星 7nm 技能的較新版本打造。
Power11 也選用了堆疊規(guī)劃。IBM 正在運(yùn)用硅中介層,相同依據(jù)三星晶圓廠的產(chǎn)品。
除了進(jìn)行少數(shù)中心架構(gòu)改變外,Power11 還專心于整個(gè)體系倉庫。這意味著要展開方方面面的作業(yè),從量子安全(以抵擋未來進(jìn)犯)到改善體系更新的布置辦法。
更重要的一點(diǎn)是 Power11 內(nèi)存子體系的晉級(jí),IBM 將其稱為 OMI 內(nèi)存架構(gòu)。這種分層內(nèi)存架構(gòu)意味著一塊芯片最多可支撐 32 個(gè) DDR5 內(nèi)存端口,最高可達(dá) 38.4Gbps 的傳輸速度,終究將帶來定制化的內(nèi)存規(guī)范 OMI D-DIMM。
趁便說一句,IBM 對(duì) HBM 并不十分看好。并不是說它速度不快(它的確很快),而是它的容量相對(duì)較低。IBM 想要悉數(shù)都完結(jié):他們想要 8TB 的 DRAM 和每秒 1TB 以上的內(nèi)存帶寬。OMI 能夠完結(jié)這個(gè)方針,而且一切這些都建立在經(jīng)典的 DDR5 內(nèi)存之上。據(jù) IBM 稱,這些 OMI 緩沖區(qū)會(huì)添加 6 到 8 納秒的推遲。
Power11 還將帶來對(duì)外部 PCIe 加快器的改善支撐。IBM 在這方面具有自己的 Spyre 加快器。
當(dāng)然,IBM 并不停步于 Power11。下一代 Power——Power Future——正在開發(fā)中。IBM 有必要考慮到職業(yè)改變來規(guī)劃下一代芯片,這既要考慮用例,也要考慮構(gòu)建未來芯片的可用技能。簡(jiǎn)而言之,與其他公司相同,IBM 不能依靠更小的制程節(jié)點(diǎn)來完結(jié)功用和密度的大幅進(jìn)步。
除了眼前的制作問題外,帶寬也是重視的關(guān)鍵。芯片的運(yùn)用帶來了新的應(yīng)戰(zhàn),即芯片邊際(beachfront)空間的可用空間。當(dāng)只是將芯片銜接在一起就需求如此大的帶寬時(shí),狀況就變得愈加雜亂。OMI被視為處理這一問題的一種處理方案。
搭載288 個(gè)中心的英特爾至強(qiáng)
英特爾發(fā)布了其下一代 288 核處理器。這款處理器選用英特爾 18A 工藝和 3D 封裝技能,較上一代 Sierra Forest 有了嚴(yán)重騰躍,具有更大的緩存、更快的 E 核和更大的內(nèi)存帶寬。
Clearwater Forest是英特爾的第二款 Forest芯片,它承繼了 Sierra 的特征,選用英特爾專心于多核的規(guī)劃。Forest 芯片不再依靠英特爾傳統(tǒng)的大中心(P 核),而是徹底由較小的高效中心組成。這使得它們專心于需求以節(jié)能的辦法運(yùn)轉(zhuǎn)多個(gè)不同線程的作業(yè)負(fù)載,但并不必定要求每個(gè)線程都具有最高的功用。
Clearwater Forest 現(xiàn)已在英特爾試驗(yàn)室里待了幾個(gè)月了,很快就會(huì)投入生產(chǎn)。這是英特爾第一批選用 18A 工藝的芯片之一,因而對(duì)英特爾來說含義嚴(yán)重。
Clearwater Forest 將運(yùn)用與英特爾當(dāng)時(shí)的 Xeon 6 代芯片(Granite Rapids 和 Sierra Forest)相同的渠道。
能效是 Clearwater 的中心競(jìng)爭(zhēng)力。英特爾在這次講演中反復(fù)強(qiáng)調(diào)這一點(diǎn)。18A 不只帶來了能效的大幅進(jìn)步,也帶來了中心架構(gòu)的改善。
另一個(gè)重要部分是切換到運(yùn)用 3D 芯片堆疊,通過 Foveros Direct 3D 完結(jié)。
18A 工藝帶來了多項(xiàng)立異。英特爾特別重視反面金屬/反面供電,將電源(以及供電軌)從晶體管后方而非上方運(yùn)送。(這對(duì)英特爾來說也是一個(gè)重關(guān)鍵,因?yàn)樗麄冊(cè)谶@項(xiàng)技能上遠(yuǎn)遠(yuǎn)搶先于臺(tái)積電)
BSPDN 還完結(jié)了必定的單元密度改善,據(jù)英特爾陳述,他們的單元運(yùn)用率已到達(dá) 90% 以上。
至于架構(gòu)自身,英特爾表明,其對(duì) Clearwater 能效進(jìn)步的影響不容小覷。首要有四個(gè)要素:
與 Sierra Forest 比較,Clearwater 通過三個(gè) 3 寬解碼器,將解碼寬度從 6 寬進(jìn)步至 9 寬。分支預(yù)測(cè)器也得到了改善,不只能跟上更寬的前端,還能進(jìn)步全體準(zhǔn)確性。
在后端,亂序履行引擎從能夠調(diào)度 5 個(gè)操作到時(shí)鐘周期進(jìn)步到了 8 個(gè)操作。總計(jì)每個(gè)時(shí)鐘周期能夠退出 16 個(gè)操作,是 Sierra 的兩倍。
履行端口的數(shù)量也大大添加,盡管 Clearwater 是一個(gè)小型功率中心,但它的履行端口數(shù)量已到達(dá) 26 個(gè)!
整數(shù)和向量履行吞吐量翻倍。存儲(chǔ)地址生成也翻倍。只需加載地址生成沒有翻倍——它們“只是”是 Sierra 的 1.5 倍。
至于內(nèi)存接口,L2 未射中緩沖區(qū)的巨細(xì)添加了一倍,使其能夠存儲(chǔ) 128 個(gè)未射中數(shù)據(jù)。這與 Clearwater 的全體內(nèi)存帶寬直接相關(guān),英特爾有必要依據(jù) Clearwater 供給的額定帶寬按份額擴(kuò)展它。
盡管它有點(diǎn)像腳注,但這兒中心啟用了幾個(gè) RAS 功用。搜一級(jí)毛片
再往上一層,單個(gè) Clearwater Forest 模塊具有 4 個(gè)中心,同享 4MB 一致二級(jí)緩存,與 Sierra 相似。不過二級(jí)緩存帶寬翻倍,到達(dá) 400GB/秒。
至于功用,英特爾宣稱 SPECint 2017 的 IPC 進(jìn)步了 17%。
與選用 2.5D 規(guī)劃的 Sierra 不同,Clearwater Forest 選用 3D 規(guī)劃,CPU 芯片坐落更大的根底芯片之上,其他非中心硬件也坐落其上。
略微核算一下規(guī)范,1152MB 的 LLC 意味著每個(gè)插槽有 576MB 的末級(jí)緩存。也便是說,在 288 中心的 Sierra Forrest 上,每個(gè) 144 中心的 Tile 上只需 108MB,一共只需 216MB。咱們的渠道也有 576 個(gè)中心,也便是每個(gè)插槽有 288 個(gè)中心。
根底芯片依據(jù)英特爾 3.0 工藝打造。IO 芯片則沿用了 Sierra Forest 的工藝,選用英特爾 7.0 工藝打造。
英特爾仍在運(yùn)用 EMIB 進(jìn)行芯片間互連。
12 個(gè) CPU 小芯片、3 個(gè)根底芯片、2 個(gè) I/O 芯片。
在雙插槽體系中,每個(gè)芯片有12個(gè)DDR5-8000內(nèi)存通道(規(guī)范裝備,而非MRDIMM)。總計(jì)1300GB/秒的內(nèi)存帶寬(明顯是100%讀取;實(shí)踐容量)。
再簡(jiǎn)略回憶一下機(jī)架方面的狀況。因?yàn)閿?shù)據(jù)中心的功耗受限,因而能夠整合以下降功耗(然后下降全體具有本錢)或許至關(guān)重要。總而言之,與 Sierra 比較,英特爾宣稱 Clearwater 機(jī)架能夠供給 3.5 倍的每瓦功用進(jìn)步。
Microsoft Azure 硬件安全
在 2025 年 Hot Chips 大會(huì)上,微軟介紹了其 Azure 硬件安全。因?yàn)?Azure 是一項(xiàng)巨大的云服務(wù),其方針是保證其安全。微軟不只需求防備外部流量要挾,還需求保證多租戶作業(yè)負(fù)載的安全,一些客戶乃至期望保證自己免受 Azure 自身的要挾。
請(qǐng)留意,咱們正在現(xiàn)場(chǎng)報(bào)道此事,因而請(qǐng)?jiān)徠磳戝e(cuò)誤。
微軟有許多超卓的數(shù)據(jù)。他們具有 70 多個(gè) Azure 區(qū)域、400 多個(gè)數(shù)據(jù)中心、27.5 萬英里光纖、190 多個(gè)網(wǎng)絡(luò) POP 點(diǎn)以及 3.4 萬名專職安全工程師。
因而,他們的體系是作為公司安全未來方案 (SFI) 的一部分為安全而規(guī)劃的。
微軟也在深化研究其體系架構(gòu)。值得留意的是,這看起來像是一種較新的英特爾散熱處理方案,每個(gè) CPU 有 12 個(gè) DIMM 插槽。這 12 個(gè) DIMM 插槽要么是 6 通道 2DPC,要么違反職業(yè)常規(guī),運(yùn)用不同色彩的確定卡扣來表明替換的通道,而不是指示通道中的第一個(gè)或第二個(gè) DIMM。
該架構(gòu)的一部分還包括硬件安全模塊。這些模塊能夠作為 PCIe 卡或服務(wù)器和機(jī)架裝置處理方案供給。
在典型的硬件安全規(guī)劃中,有一個(gè)中心 HSM 集群。
微軟正在將其硬件安全從集中式方法轉(zhuǎn)變?yōu)榧傻矫颗_(tái)服務(wù)器中。
這是 Azure 集成 HSM,是微軟的安全芯片。通過運(yùn)用本地 ASIC,無需與中心化服務(wù)器進(jìn)行 TLS 握手。
具有自主研制的芯片意味著需求在芯片規(guī)劃上做出權(quán)衡。曾經(jīng),當(dāng)芯片選用集中式規(guī)劃時(shí),微軟會(huì)在集群等級(jí)擴(kuò)展 HSM。現(xiàn)在,它需求將其規(guī)劃調(diào)整到合適單臺(tái)服務(wù)器的規(guī)劃,一起還要堅(jiān)持低功耗和小尺度。
微軟不只需求 AES 和 PKE 加密加快,還需求檢測(cè)侵略和篡改等行為的才能。
微軟也進(jìn)軍秘要核算范疇。
其意圖是維護(hù)正在運(yùn)用的數(shù)據(jù),特別是在多租戶云環(huán)境中。
微軟現(xiàn)在正在議論其 Caliptra 2.0 開源硅信賴根。
這太酷了。微軟正在具體分析不同功用的門數(shù)。這或許是咱們本年見過的最搶手的芯片幻燈片了。
以下是驗(yàn)證開釋門。
因?yàn)檫@是微軟定制的 ASIC,那么問題或許是為什么要開源它?微軟的理由如下:
全體來說,這十分整齊。
這不只讓咱們明晰地了解了微軟正在做什么,還討論了“為什么?”以及微軟在云安全方面的理念。微軟在這方面比其他一些云供給商愈加敞開,因而這次查詢十分有含義。即便沒有其他,了解到網(wǎng)絡(luò)違法商場(chǎng)規(guī)劃超越 10 萬億美元,乃至比人工智能商場(chǎng)還要大,而且微軟具有 3.4 萬名專門的安全人員,也是一件十分有含義的作業(yè)。
AMD RDNA 4 GPU 架構(gòu)露臉
美國加州時(shí)刻今日下午,AMD 在 Hot Chips 2025 的圖形專題上拉開了前奏。該公司于本年早些時(shí)候推出了 RDNA 4 架構(gòu)和相關(guān)的 Radeon RX 9000 系列顯卡,迄今為止已發(fā)布了兩款 GPU。
因?yàn)?AMD 現(xiàn)在已深化開發(fā)這一代 Radeon GPU,因而該公司在本年的 Hot Chips 大會(huì)上未必會(huì)有什么嚴(yán)重音訊。但他們?nèi)栽谡箷?huì)上向與會(huì)者更新了 RDNA 4 架構(gòu)的最新狀況,并透露了一些初次發(fā)布時(shí)未觸及的細(xì)節(jié)。
快速回憶一下 AMD RDNA 4 的規(guī)劃方針。這是一個(gè)專心于圖形(游戲)的架構(gòu),對(duì)光線追尋和機(jī)器學(xué)習(xí) (AI) 硬件進(jìn)行了嚴(yán)重更新。AMD 對(duì)架構(gòu)采取了前瞻性的視角,旨在應(yīng)對(duì)未來的圖形作業(yè)負(fù)載。
其他明顯的改善:緊縮、媒體和顯現(xiàn)引擎。
回憶 AMD 的邏輯規(guī)劃,單個(gè) GPU 由(最多)多個(gè)著色器引擎組成。本代 L2 緩存有所擴(kuò)展,以便更好地為實(shí)時(shí)作業(yè)負(fù)載做好預(yù)備。這也標(biāo)志著 AMD Infinity Cache 的第三代。一切這些功用都有助于保證中心的正常運(yùn)轉(zhuǎn)。
RDNA 4 的一大改善是媒體和顯現(xiàn)引擎。AMD 在 Navi 48 GPU 中裝備了兩個(gè)這樣的媒體引擎。媒體模塊進(jìn)行了一些重要的編碼器更新,例如為 AV1 編碼添加了 B 幀,并下降了全體推遲。
一起,顯現(xiàn)塊添加了一些功用,例如將 Radeon 圖畫銳化 2 集成到塊自身,而不是將其作為著色器作用進(jìn)行處理。
至于數(shù)字運(yùn)算,悉數(shù)始于核算引擎。值得留意的是,標(biāo)量單元添加了浮點(diǎn)支撐。更不用闡明顯的機(jī)器學(xué)習(xí) (ML) 改善(稍后會(huì)具體介紹)。
在 RT 方面,RDNA 4 的光線穿插功用進(jìn)步了一倍。此外,還新增了一個(gè)專用的硬件傳輸器,將該使命從著色器程序中搬運(yùn)出來。
BVH 結(jié)構(gòu)也進(jìn)行了加寬,從 4 列加寬至 8 列。這與雙倍的穿插引擎相得益彰。另一方面,節(jié)點(diǎn)緊縮也削減了 BVH 的尺度。
RT 硬件的一項(xiàng)新特性是定向鴻溝框:一種處理與國際軸不對(duì)齊的幾許體的處理方案,會(huì)導(dǎo)致誤報(bào)穿插。
簡(jiǎn)而言之:旋轉(zhuǎn)鴻溝框以更好地匹配國際幾許。
上面的熱圖顯現(xiàn)了從頭定位的鴻溝框怎么明顯削減誤報(bào)。
因?yàn)?RT 極端不同,亂序內(nèi)存拜訪也是光線追尋的首要功用組成部分。
某些懇求(只需它們互相獨(dú)立)能夠優(yōu)先于其他懇求,然后打破嚴(yán)厲的次序。與其他方法的推遲躲藏相同,這有助于通過將預(yù)備履行的作業(yè)排隊(duì)并履行,而無需等候其他推遲的作業(yè)來進(jìn)步功率。
RT 功用概述:BVH 吞吐量翻倍,帶來了 RDNA 4 的大部分 RT 功用進(jìn)步。此外,OoO 內(nèi)存、硬件實(shí)例轉(zhuǎn)化和定向鴻溝框等特性也進(jìn)一步進(jìn)步了功用,使 RT 功用比較 RDNA 3 進(jìn)步了約 2 倍。
RDNA 4 還通過動(dòng)態(tài)寄存器分配對(duì)著色器引擎進(jìn)行了一些更新。
RT 往往會(huì)占用許多寄存器,但并非在一切履行階段都會(huì)占用。例如,遍歷操作運(yùn)用的寄存器相對(duì)較少。
RDNA 3 會(huì)依據(jù)最壞狀況分配寄存器。而 RDNA 4 能夠動(dòng)態(tài)分配寄存器,只答應(yīng)運(yùn)用所需的寄存器,一旦不再需求,就會(huì)開釋。
實(shí)踐上,這使得 AMD 能夠通過將另一波擠入開釋的寄存器來添加與 RDNA 3 比較的飛翔波數(shù)。
關(guān)于 ML/AI 作業(yè)負(fù)載,RDNA 4 添加了 FP8 功用以及結(jié)構(gòu)化稀少性。
途徑追尋盡管能發(fā)生更好的成果,但需求許多的射線。實(shí)踐發(fā)送一切需求的射線本錢太高。這時(shí),AI 便應(yīng)運(yùn)而生,它運(yùn)用神經(jīng)輻射緩存以及神經(jīng)超采樣和去噪技能來添補(bǔ)因運(yùn)用過少射線而形成的空白。
AMD 的關(guān)鍵從圖形處理轉(zhuǎn)向 GPU 的 SoC 架構(gòu)。具體來說,AMD 展現(xiàn)了數(shù)據(jù)在著色器引擎、各種緩存和內(nèi)存控制器之間的活動(dòng)辦法。Infinity Fabric 的帶寬高達(dá) 1KB/時(shí)鐘頻率。
RDNA 4 在結(jié)構(gòu)上是模塊化的。AMD 規(guī)劃的 Navi 48 能夠?qū)⑵淝谐蓛砂耄缓笾谱鞒龈〉?GPU,然后削減了開發(fā) GPU 變體所需的作業(yè)量。
這也是 RAS 功用發(fā)揮作用以進(jìn)步可靠性的當(dāng)?shù)亍?/p>
如前所述,RDNA 4 具有新的內(nèi)存緊縮/解緊縮功用。這些功用對(duì)軟件徹底通明,悉數(shù)由硬件處理。AMD 已將結(jié)構(gòu)帶寬占用率下降了約 25%。
即便在單個(gè) GPU 中,一切這些都是靈敏的,答應(yīng)交融各種塊來制作新的視頻卡 SKU 并收回不完美的芯片。
總而言之,RDNA 4 憑仗其光線追尋和 AI/ML 功用,專為下一代游戲而打造。
NVIDIA GeForce RTX 5090
與 AMD 相同,NVIDIA 當(dāng)時(shí)一代圖形產(chǎn)品正處于中期,首款產(chǎn)品早在 2024 年末就已推出。因而,他們?cè)?Hot Chips 上的講演更像是一次回憶,關(guān)鍵重視 Blackwell 架構(gòu)為圖形技能——特別是依據(jù)機(jī)器學(xué)習(xí)的神經(jīng)烘托范疇——帶來的影響。
NVIDIA 規(guī)劃的 Blackwell 架構(gòu)能夠從數(shù)據(jù)中心擴(kuò)展到移動(dòng)端。從某些方面來說,AI 便是 AI——無論是為 ChatGPT 生成令牌,仍是為搜一級(jí)毛片光線追尋履行神經(jīng)降噪。因而,NVIDIA 能夠依據(jù)需求擴(kuò)展或減縮其規(guī)劃,以習(xí)慣專業(yè)級(jí)和消費(fèi)級(jí) GPU。憑借 Blackwell,NVIDIA 正大力押注 FP4 ML 核算,以最大極限地進(jìn)步功用。
本次講演的關(guān)鍵是:神經(jīng)烘托。運(yùn)用機(jī)器學(xué)習(xí)來生成幀。NVIDIA 想要打破“恐懼谷”——這項(xiàng)使命在傳統(tǒng)的光柵化過程中需求許多的額定核算。但機(jī)器學(xué)習(xí)技能或許能夠更快地完結(jié)這一方針。
NVIDIA 在這方面的視角頗具一格。即便在 Turing 推出七年后,他們?nèi)栽诒M力向用戶推銷機(jī)器學(xué)習(xí)的各種功用。所以,這不只是關(guān)乎圖形處理,還關(guān)乎運(yùn)用這種擴(kuò)展來節(jié)約筆記本電腦的電量,以及在游戲中運(yùn)用機(jī)器學(xué)習(xí)署理。
反過來,Blackwell 也進(jìn)行了多項(xiàng)改善,以進(jìn)步 ML 功用。一起,它不斷進(jìn)步功率,力求保證每個(gè) SM 在每個(gè)周期都能發(fā)揮作用,無論是圖形處理仍是各種 ML 模型。此外,它還裝備了一整套 AI 辦理處理器,以保證數(shù)據(jù)傳輸和 SM 的高效運(yùn)轉(zhuǎn)。
盡管如此,這兒依然有許多的原始馬力被開釋。360 RT TFLOPs 的 RT 功用、GDDR7 內(nèi)存,以及如此多的張量 FLOPS。
NVIDIA 許多運(yùn)用著色器履行重排序技能,以堅(jiān)持 SM 的滿載。重排序作業(yè)能夠防止氣泡,然后堅(jiān)持運(yùn)轉(zhuǎn)。這是軟件和硬件的結(jié)合。明顯,這兒進(jìn)行了許多整數(shù)運(yùn)算來完結(jié)排序,這便是為什么在 Blackwell 年代,整數(shù)功用對(duì) NVIDIA 來說至關(guān)重要。
NVIDIA 正在大力發(fā)展 FP4。他們估計(jì)它能夠堅(jiān)持圖形模型所需的精度,一起只消耗一半的內(nèi)存和核算資源。附注:FP4 的動(dòng)態(tài)規(guī)模比 INT4 更寬,這會(huì)帶來更多優(yōu)點(diǎn)。
Blackwell 添加了 GDDR7 支撐,明顯進(jìn)步了總內(nèi)存帶寬。與 PAM4 (GDDR6X) 比較,PAM3 供給的每時(shí)鐘位數(shù)較少,但更高的信噪比 (SNR) 答應(yīng)更高的時(shí)鐘速度,足以補(bǔ)償差異。此外,它還答應(yīng)更低的電壓。
NVIDIA 期望縮短初次令牌履行時(shí)刻,特別是在混合圖形/機(jī)器學(xué)習(xí)作業(yè)負(fù)載下。這為機(jī)器學(xué)習(xí)模型/AI 署理更適用于交互式游戲奠定了根底。
人工智能辦理處理器在其間發(fā)揮著重要作用,它有助于和諧圖形和機(jī)器學(xué)習(xí)的交織作業(yè),而不會(huì)因貴重的上下文切換而導(dǎo)致 GPU 阻滯。
調(diào)度需求十分雜亂,特別是在不同的作業(yè)負(fù)載具有不同的推遲要求的狀況下。例如,機(jī)器學(xué)習(xí)署理的截止時(shí)刻與實(shí)時(shí)圖形處理并不徹底相同。這些都是人工智能辦理處理器需求考慮的要素。
幀生成:無需消耗功耗烘托幀,只需花費(fèi)很少的功耗,即可用插值幀替代。功耗最高可下降 2 倍。
Graphics Blackwell 還支撐通用 MIG(多實(shí)例 GPU),這之前是數(shù)據(jù)中心 GPU 獨(dú)有的功用。這項(xiàng)功用通過為每個(gè)客戶端分配不同的 SM 集,改善了為多個(gè)客戶端(例如流媒體服務(wù))拆分圖形 GPU 的功用。
與單純的時(shí)刻切片比較,NVIDIA 發(fā)現(xiàn) MIG 的功用進(jìn)步高達(dá) 60%。這得益于單個(gè) 1080p 客戶端作業(yè)負(fù)載過小,無法徹底滿意 RTX Pro 6000 的核算需求;將其拆分為多個(gè)較小的 vGPU 后,能夠通過并行履行多個(gè)作業(yè)負(fù)載來堅(jiān)持 GPU 的負(fù)載飽滿。
Meta談圖畫芯片
當(dāng)天終究一個(gè)與圖形相關(guān)的講演來自 Meta,他的講演或許是圖形范疇最新穎的。Meta 的前 Oculus 頭顯部分并沒有議論現(xiàn)已向客戶發(fā)貨幾個(gè)月的 GPU 架構(gòu),而是在展會(huì)上討論怎么運(yùn)用專用 IC 來加快國際確定烘托 (WRL)。WRL 是 Meta 特別重視的論題,因?yàn)樗?AR/VR 眼鏡開發(fā)的一部分,其間最引人注意圖是其原型 Orion 眼鏡,這款眼鏡正在打破相對(duì)較小的眼鏡在空間和功耗預(yù)算方面的極限。
簡(jiǎn)而言之,國際確定烘托 (World-Lock Rendering) 是一種技能,當(dāng)用戶的頭部移動(dòng)時(shí),烘托圖畫會(huì)確定在國際某個(gè)點(diǎn)上。它能夠讓圖畫漂浮在你面前,但會(huì)依據(jù)你周圍的國際進(jìn)行確定。這還包括遮擋等功用,即實(shí)踐國際的物體遮擋虛擬物體。
回憶 WLR 的原理:錨定目標(biāo)、深度核算、烘托國際與實(shí)踐國際的真實(shí)交融,乃至音頻空間烘托。這些原理不只包括烘托過程,還包括了快速完結(jié)烘托的需求,一起盡或許下降功耗。
這是根本 WRL 算法的框圖。輸入來自慣性單元和其他傳感器,然后通過幾個(gè)核算階段,終究進(jìn)行組成和投影。
因?yàn)檠坨R的物理約束,WRL 的功耗預(yù)算極端有限。Meta 運(yùn)用了一切職業(yè)頂級(jí)技能,包括頂級(jí)工藝節(jié)點(diǎn)(Orion 構(gòu)思之初為 5nm)、有限的 DRAM 運(yùn)用、緊縮以及全面的電源辦理。即便如此,物理尺度也是一個(gè)問題,因?yàn)檠坨R幾乎沒有留下太多芯片空間。
因而,Orion 將核算使命拆分到眼鏡和外部 Puck 中。WRL 對(duì)推遲極端靈敏,因而需求在眼鏡中進(jìn)行。Puck 中一共包括 3 個(gè)首要處理芯片:顯現(xiàn)處理器、眼鏡處理器和核算協(xié)處理器。
WLR 是一種特別的作業(yè)負(fù)載,因?yàn)樗幌蛟谶\(yùn)轉(zhuǎn)。因而,它不會(huì)像大多數(shù)傳統(tǒng)作業(yè)負(fù)載那樣呈現(xiàn)突發(fā)狀況。因而,在某些方面,它的硬件需求天壤之別。
眼鏡處理器負(fù)責(zé)處理一切眼部和手部追尋以及攝像頭輸入。它選用全體系級(jí)封裝 (SiP),將 SoC、LPDDR4X 內(nèi)存和 NVMe 閃存集成在同一封裝中。一共集成了 24 億個(gè)晶體管,選用 5nm 工藝制作。Meta 乃至在芯片中植入了安全信賴根,保證一切進(jìn)出芯片的數(shù)據(jù)都通過加密。
冰球傳來的圖畫選用 HEVC 編碼,因而眼鏡處理器需求對(duì)其進(jìn)行解碼。終究,它會(huì)被從頭編碼為顯現(xiàn)處理器的專有格局。
有兩個(gè)顯現(xiàn)處理器,每只眼睛一個(gè)。從頭投影(時(shí)刻歪曲)在這兒進(jìn)行。這兒沒有外部存儲(chǔ)器,所以一切內(nèi)容都存儲(chǔ)在片上 SRAM 中。這意味著這兒的 SRAM 容量反常大。
終究,還有冰球中的核算協(xié)處理器。這是功用最強(qiáng)、功耗和發(fā)熱量最高的處理器。核算機(jī)視覺處理、機(jī)器學(xué)習(xí)履行、音頻烘托、HEVC 編碼等功用都在這兒進(jìn)行。這是一款具有相對(duì)較大片上 SRAM 緩存的芯片。整個(gè)芯片由 57 億個(gè)晶體管組成,選用 5nm 工藝制作;并裝備 LPDDR4X 內(nèi)存。
把一切這些組合在一起,您就得到了獵戶座眼鏡。
Rebellions 144GB HBM3E 加快器露臉
Rebellions 在 Hot Chips 2025 大會(huì)上展現(xiàn)了其全新的 AI 加快器。值得留意的是,Rebellions REBEL-Quad 選用四個(gè) HBM3E 插槽,可支撐 144GB 內(nèi)存,一起還選用 UCIe 作為芯片互連技能。咱們多年來一向重視 UCIe,而這是一款選用芯片互連技能的現(xiàn)代芯片,咱們?yōu)榇松罡序湴痢?/p>
這是依據(jù)三星 SF4X 和 CoWoS-S 構(gòu)建的封裝。每個(gè)封裝上都有四個(gè)核算 ASIC、四個(gè) HBM3E 接口和四個(gè)集成硅電容器 (ISC)。風(fēng)趣的是,這是一張雙 PCIe Gen5 x16 接口卡。鑒于 NVIDIA GB300 行將迎來 PCIe Gen6,而且咱們正在看到 REBEL-Quad 的開發(fā)板,感覺這款顯卡或許是 PCIe Gen6 接口,以匹配 NVIDIA。另一個(gè)重要特點(diǎn)是,它運(yùn)用 UCIe-A 來供給大帶寬。
這是一張 REBEL-Quad 卡,它是一張 PCIe 卡。
這是封裝。你能夠看到它是怎么因?yàn)樗慕M硅片而得名“Quad”的。
許多公司都在展現(xiàn)硅片封裝,但咱們看到的卻不相同。這家公司的新芯片現(xiàn)已在開發(fā)板上運(yùn)轉(zhuǎn)了。
這兒正在運(yùn)轉(zhuǎn)一個(gè)實(shí)時(shí)的 Llama 3.3 70B 演示。關(guān)于一些更重視 AI 加快器的 STH 讀者來說,這是一個(gè)正在運(yùn)轉(zhuǎn)的新硬件。關(guān)于重視芯片技能的朋友,這兒是一個(gè)正在運(yùn)轉(zhuǎn)的 UCIe 芯片。
關(guān)于那些獵奇的人來說,這個(gè)演示中的 Llama 3.3 70B 的輸出速度為 35.5 毫秒(均勻)/令牌。但是,正如你所見,這是一個(gè)開發(fā)板。
看到UCIe運(yùn)轉(zhuǎn)起來真是太酷了!每次我和UCIe的團(tuán)隊(duì)談天,我都會(huì)問什么時(shí)候能看到運(yùn)轉(zhuǎn)的產(chǎn)品。我得到的答案通常是,因?yàn)閁CIe集成在封裝內(nèi),所以每家公司都自行決定是否運(yùn)用UCIe進(jìn)行商場(chǎng)推廣。現(xiàn)在咱們有一個(gè)很好的比如來闡明這一點(diǎn)。他們有東西能夠集成這么多硅片在一個(gè)大封裝里,而且正在演示運(yùn)轉(zhuǎn),這也闡明晰許多問題。許多AI加快器公司都有加快器的主意,但這些主意往往連硅片都無法完結(jié)揭露演示。恭喜Rebellions團(tuán)隊(duì)(以及UCIe的團(tuán)隊(duì))。
本文來自微信大眾號(hào)“半導(dǎo)體職業(yè)調(diào)查”(ID:icbank),作者:編輯部,36氪經(jīng)授權(quán)發(fā)布。