華為日前公布最新 AI 系統架構 CloudMatrix 384 Supernode,採用多達 384 顆 Ascend 910C 晶片,總算力高達 300 PFLOPS,性能較 NVIDIA GB200 NVL72 強出約 1.7 倍,成為中國回應美國晶片禁令下的重要技術反擊。不過,這種「以量補質」的戰術同時帶來耗電暴增的代價,總功耗達對手近 4 倍。
CloudMatrix 384 Supernode 已部署在中國安徽蕪湖市的數據中心。華為內部稱此系統為「原子能級」AI 解決方案,主力對標 NVIDIA 的 NVL72 架構。NVL72 配備 72 顆 Blackwell GPU,透過高速 NVLink 互連,整體算力達 180 PFLOPS。雖然 Ascend 910C 單顆效能約為 Blackwell 三分之一,但華為透過 5 倍數量堆疊,加上 3.6 倍記憶體容量與 2.1 倍記憶體頻寬,成功壓過 NVIDIA 旗艦系統。
華為與中國 AI 初創企業 SiliconFlow 合作,計劃以 CloudMatrix 架構支援中國自研推理模型 DeepSeek-R1。分析指這項部署象徵中國正逐步實現 AI 計算基礎設施的「去美國化」,進一步加劇中美科技對峙。
CloudMatrix 384 雖然在整體系統層面展現工程創新,包括大規模光學互連與軟件優化,但其耗電效能偏低。總功耗是 NVL72 的 3.9 倍,每 FLOP 的耗電量為其 2.3 倍,每 TB/S 記憶體頻寬下的耗電為 1.8 倍,而記憶體容量耗電比則為 1.1 倍。雖然這些數據在歐美會引起關注,但在中國,電力供應並未構成主要限制。
SemiAnalysis 指出,中國仍以燃煤發電為主,並持續擴展太陽能、水力、風能與核電,能源增長速度為全球之冠。報告甚至估算,中國自 2011 年以來新增電網容量,相當於美國整體電網規模。這種電力優勢讓中國可以犧牲效率,換取更大規模的 AI 擴展能力。
報告提到,CloudMatrix 架構包含 16 個機櫃,其中 12 個為運算櫃,每個櫃放置 32 顆 Ascend 晶片,其餘 4 個則作為光學互連核心。整體系統使用高達 6,912 顆 400G LPO(線性可插拔光模組)收發器取代傳統銅線,提升互連密度與延展能力,這也是該系統與 NVIDIA 曾經計劃但未量產的 DGX H100 NVL256「Ranger」架構相似之處。
不過,報告同時指出,Ascend 910C 雖然完全由華為設計,但其製造過程高度依賴外國供應鏈,包括來自韓國的 HBM 高頻寬記憶體、台灣 TSMC 提供的晶圓,以及美國、荷蘭、日本製的半導體製造設備。TSMC 更因涉嫌繞過制裁供應晶圓,可能面臨高達 10 億美元(約港幣 78 億元)罰款。
華為透過第三方公司 Sophgo 向 TSMC 採購約 2.9 百萬顆晶圓裸晶,可生產 80 萬顆 Ascend 910B 與 105 萬顆 Ascend 910C。而三星方面,亦成為中國最主要 HBM 供應商,有傳華為已儲備高達 1300 萬組 HBM 堆疊組件,足以支援 160 萬顆 Ascend 晶片封裝。
雖然中國本土晶圓代工廠 SMIC 技術尚未完全趕上先進製程,但正擴充在上海、深圳與北京的產能,預計今年月產量將達 5 萬片晶圓。如持續獲得外國供應的光阻材料與工具維護支援,SMIC 的產量仍有進一步提升空間。
總結來看,CloudMatrix 384 展示中國透過系統層級整合補足晶片代工不足的策略。雖然單晶片效能不敵 NVIDIA,華為透過大規模堆疊與光學網絡擴展,成功在計算總體性能上實現「彎道爬頭」,進一步縮短與西方科技巨頭的差距。未來其挑戰仍在於供應鏈自主與製造良率的提升。
資料來源:Semi Analysis
相關文章:
美國禁止全球使用華為 AI 晶片 如使用則屬違反美國出口管制規定 為應對美國制裁作出準備 傳小米或與華為、步步高研發無Google版HyperOS 3系統 Huawei 三摺推出半年銷量強勁 Mate XT ULTIMATE 傳聞已突破 40 萬
分享到 :
最新影片
