壁仞科技副總裁兼 AI 軟件首席架構師丁雲帆分析了當前 AI 運算力瓶頸問題,並提出從硬件集群運算力、軟件有效運算力及異構聚合運算力的方向,入手解決問題。
▲壁仞科技副總裁兼 AI 軟件首席架構師丁雲帆分析當前 AI 運算力瓶頸問題(圖片來源:啟明創投)
丁雲帆在 2024 年世界人工智能大會上表示,大模型訓練是一項複雜的系統工程,需要軟硬件的緊密結合以及算法和工程的協同:「在這個過程中,我們面臨著計算、存儲、通信等基礎設施,以及集群規模擴張過程中計算效率的挑戰。雖然國產 AI 晶片單個運算力可能不及國際巨頭,但通過綜合手段可以提升運算力,滿足國內大模型訓練的需求。」
從硬件集群運算力來看,單卡運算力乘以卡的數量等於集群運算力,計算方式雖然簡單,但單卡運算力的提升空間有限。通過微架構層面的創新,可以在保證兼容性和計算效率的同時,提升單卡運算力。此外,千卡集群、萬卡集群的建設對網絡和基礎設施有更高的要求。壁仞科技在 2020 年設計的第一代產品中採用了 chiplet 架構,與國外巨頭如 NVIDIA B100 和 Intel Gaudi 3 的思路不謀而合,通過 chiplet 技術突破摩爾定律的限制,進一步提升單卡運算力。
在軟件有效運算力方面,擁有超大規模集群後,軟件能否充分發揮運算力至關重要。包括軟硬結合的計算效率、集群調度效率以及故障處理效率。集群調度效率和穩定性問題是無法回避的挑戰,無論是國產顯示卡還是 NVIDIA GPU,故障率相對較高。壁仞科技採用了三級異步 checkpoint 技術,結合 GPU 的顯示記憶體、CPU 記憶體以及多節點記憶體的備份系統,大幅降低故障恢復成本。
異構聚合運算力則強調了在集群建設過程中面臨的各種挑戰,包括基礎設施擴容困難等問題。壁仞科技通過三級異步 checkpoint 技術,結合 GPU 顯示記憶體和 CPU 記憶體,甚至是多節點記憶體的備份系統,令故障恢復成本的大幅降低。
相關文章:
【評測】HP OmniBook Ultra Flip 14 評測 內建 AI 可幫你作文 【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 AI 耶穌能聽見你的懺悔嗎? 宗教學者這樣說