Nvidia 創辦人黃仁勳承認,Nvidia 最新 Blackwell GPU 在設計上出現缺陷,導致生產率大幅下降,但問題已於數月前修正。經改良後的 B100/B200 處理器版本現已準備進入量產階段,而合作夥伴台積電亦協助 Nvidia 解決相關問題。根據 Reuters 報導,黃仁勳強調設計問題完全源於 Nvidia 自身。
▲黃仁勳指出 Blackwell 設計錯誤導致生產良率低下, 100% 是 Nvidia 的責任(圖片來源:TOM’s Hardware)
黃仁勳指出:「Blackwell 的設計確實有缺陷,功能上沒有問題,但設計上的錯誤導致生產良率低下, 100% 是 Nvidia 的責任。」部分媒體曾誤指責台積電導致此問題,並暗示 Nvidia 和台積電之間的合作關係可能受損。對此,黃仁勳反駁並否認了相關傳言,稱其為「假新聞」,表示 Nvidia 的設計失誤才是問題根源。
針對 Blackwell B100 和 B200 GPU 的技術細節,處理器使用台積電的 CoWoS-L 封裝技術,並透過具備本地矽互連(LSI)橋接的 RDL 中介層連接雙晶片,以達到每秒約 10 TB 的數據傳輸速度。而由於 GPU 晶片、LSI 橋接、RDL 中介層和主板基材之間的熱膨脹系數不一致,導致該系統出現變形失效。Nvidia 針對問題修改了 GPU 矽片的頂層金屬層和凸點設計,以提升生產良率,並需使用新的掩膜圖案完成修復。
半導體領域中生產良率低下和功能性缺陷並非罕見,通常公司會通過修改一層或數層金屬層來修正問題,並稱之為「步進」更新。例如 Intel 的 Sapphire Rapids 曾因 500 項問題進行多達 12 次步進修正,其中 5 次為基本重新設計。每一次步進更新需耗時約三個月完成,包括問題識別、修復以及生產新版本的處理器,因此 Nvidia 和台積電對於 Blackwell GPU 問題的快速修正速度實屬罕見。
目前修正後的 Blackwell GPU 將於 10 月底進入量產,預計明年初即可出貨至市場,仍屬於 Nvidia 2025 財政年度。Nvidia 於今年初披露,為了滿足 AWS、Google 和 Microsoft 等大型雲端服務供應商對 Blackwell GPU 的需求,2024 年內仍會出貨部分最初生產良率較低的 Blackwell 處理器。惟尚不清楚 2024 年將有多少 Blackwell GPU 出貨至數據中心。
資料及圖片來源:TOM’s Hardware、BlockTempo
相關文章:
黃仁勳焗爐拿出 NVIDIA 新 AI 電腦 售價港幣二千有找盼吸引小企業 Nvidia RTX 50 系列顯示卡性能大躍進 旗艦 5090 預計增幅達 70% Nvidia 涉違反中國反壟斷法 市監總局下令徹查