人工智能

丁雲帆:中國 AI 晶片可用於大模型訓練 AI 運算力不足以數量、軟件補救

Published by
Pickle Rick
Share

壁仞科技副總裁兼 AI 軟件首席架構師丁雲帆分析了當前 AI 運算力瓶頸問題,並提出從硬件集群運算力、軟件有效運算力異構聚合運算力的方向,入手解決問題

 

壁仞科技副總裁兼 AI 軟件首席架構師丁雲帆分析當前 AI 運算力瓶頸問題(圖片來源:啟明創投

 

丁雲帆在 2024 年世界人工智能大會上表示,大模型訓練是一項複雜的系統工程,需要軟硬件的緊密結合以及算法和工程的協同:「這個過程中,我們面臨著計算、存儲、通信等基礎設施,以及集群規模擴張過程中計算效率的挑戰。雖然國產 AI 片單個運算力可能不及國際巨頭,但通過綜合手段可以提升運算力,滿足國內大模型訓練的需求。」

 

從硬件集群運算力來看,單卡運算力乘以卡的數量等於集群運算力,計算方式雖然簡單,但單卡運算力的提升空間有限。通過微架構層面的創新,可以在保證兼容性和計算效率的同時,提升單卡運算力。此外,千卡集群、萬卡集群的建設對網絡和基礎設施更高的要求。壁仞科技在 2020 年設計的第一代產品中採用了 chiplet 架構,與國外巨頭如 NVIDIA B100 Intel Gaudi 3 的思路不謀而合,通過 chiplet 技術突破摩爾定律的限制,進一步提升單卡運算力。

 

在軟件有效運算力方面,擁有超大規模集群後,軟件能否充分發揮運算力至關重要。包括軟硬結合的計算效率、集群調度效率以及故障處理效率。集群調度效率和穩定性問題是無法回避的挑戰,無論是國產顯示卡還是 NVIDIA GPU,故障率相對較高。壁仞科技採用了三級異步

checkpoint 技術,結合 GPU 的顯示記憶體、CPU 記憶體以及多節點記憶體的備份系統,大幅降低故障恢復成本。

 

異構聚合運算力則強調了在集群建設過程中面臨的各種挑戰,包括基礎設施擴容困難問題。壁仞科技通過三級異步 checkpoint 技術,結合 GPU 顯示記憶體和 CPU 記憶體,甚至是多節點記憶體的備份系統,故障恢復成本的大幅降低。

 

資料及圖片來源:啟明創投快科技富途牛牛


相關文章:
  • DJI NEO 開箱 超輕航拍 免註冊登記 AI 6秒 起飛跟拍 旅行自拍神器
  • 【教學】iOS 18.1 AI 一鍵清相片路人雜物 旅遊景點不再人頭湧湧
  • 【評測】Samsung Galaxy Z Fold6 開箱詳細評測 機身輕薄化 + 角邊位界手 + 整體表現中上 + AI 功能更實用 + 定價超貴入手門檻高

  • Published by
    Pickle Rick