Nvidia 創辦人黃仁勳承認,Nvidia 最新 Blackwell GPU 在設計上出現缺陷,導致生產率大幅下降,但問題已於數月前修正。經改良後的 B100/B200 處理器版本現已準備進入量產階段,而合作夥伴台積電亦協助 Nvidia 解決相關問題。根據 Reuters 報導,黃仁勳強調設計問題完全源於 Nvidia 自身。
▲黃仁勳指出 Blackwell 設計錯誤導致生產良率低下, 100% 是 Nvidia 的責任(圖片來源:TOM’s Hardware)
黃仁勳指出:「Blackwell 的設計確實有缺陷,功能上沒有問題,但設計上的錯誤導致生產良率低下, 100% 是 Nvidia 的責任。」部分媒體曾誤指責台積電導致此問題,並暗示 Nvidia 和台積電之間的合作關係可能受損。對此,黃仁勳反駁並否認了相關傳言,稱其為「假新聞」,表示 Nvidia 的設計失誤才是問題根源。
針對 Blackwell B100 和 B200 GPU 的技術細節,處理器使用台積電的 CoWoS-L 封裝技術,並透過具備本地矽互連(LSI)橋接的 RDL 中介層連接雙晶片,以達到每秒約 10 TB 的數據傳輸速度。而由於 GPU 晶片、LSI 橋接、RDL 中介層和主板基材之間的熱膨脹系數不一致,導致該系統出現變形失效。Nvidia 針對問題修改了 GPU 矽片的頂層金屬層和凸點設計,以提升生產良率,並需使用新的掩膜圖案完成修復。
半導體領域中生產良率低下和功能性缺陷並非罕見,通常公司會通過修改一層或數層金屬層來修正問題,並稱之為「步進」更新。例如 Intel 的 Sapphire Rapids 曾因 500 項問題進行多達 12 次步進修正,其中 5 次為基本重新設計。每一次步進更新需耗時約三個月完成,包括問題識別、修復以及生產新版本的處理器,因此 Nvidia 和台積電對於 Blackwell GPU 問題的快速修正速度實屬罕見。
目前修正後的 Blackwell GPU 將於 10 月底進入量產,預計明年初即可出貨至市場,仍屬於 Nvidia 2025 財政年度。Nvidia 於今年初披露,為了滿足 AWS、Google 和 Microsoft 等大型雲端服務供應商對 Blackwell GPU 的需求,2024 年內仍會出貨部分最初生產良率較低的 Blackwell 處理器。惟尚不清楚 2024 年將有多少 Blackwell GPU 出貨至數據中心。
資料及圖片來源:TOM’s Hardware、BlockTempo
集中生產 RTX 50 系列 Nvidia 停產 RTX 40 系列顯卡只剩一款 AMD 聯手富士通挑戰 NVIDIA H200 共同開發 AI、HPC 運算平台 NVIDIA 加入道瓊斯工業平均指數 取代 Intel 原有位置