華為於正式發布 AI 推理創新技術 UCM(推理記憶數據管理器),此突破性成果期望能降低中國 AI 推理對 HBM(高頻寬記憶體)技術依賴。該技術已率先在中國銀聯「客戶之聲」、「營銷策劃」及「辦公助手」三大業務場景開展智慧金融 AI 推理加速應用試點,並取得成果。
技術核心突破 HBM 依賴瓶頸
UCM 是以 KV Cache 為核心推理加速套件,融合多種類型緩存加速演算法工具,分級管理推理過程產生 KV Cache 記憶數據。此技術可擴大推理上下文窗口,實現高吞吐量、低時延推理體驗,同時降低每 Token 推理成本。
據了解,目前外國主流型號單用戶輸出速度已達 200 Tokens/s(時延 5ms),而中國普遍低於 60 Tokens/s(時延 50-100ms)。UCM 技術推出,正是針對此項推理效率與用戶體驗核心難題。
如果想知道詳細原理及如何助企業節省成本,可篇考 <unwire.pro 這篇>文章
9 月開源共享業界生態
Huawei 計劃於 2025 年 9 月正式開源 UCM,屆時將在魔擎社區首發,後續逐步貢獻予業界主流推理引擎社區,並共享予業內所有 Share Everything(共享架構)儲存廠商及生態夥伴。
此技術發布正值 AI 產業從「追求模型能力極限」轉向「追求推理體驗最佳化」關鍵節點。推理體驗直接關聯用戶滿意度及商業可行性,已成為衡量模型價值重要標準。
實際應用效果顯著
以辦公助手場景為例,透過應用 Huawei AI 推理加速方案,可支援用戶輸入超過 170,000 Tokens 超長序列推理,避免超長序列模型無法推動問題。
HBM(高頻寬記憶體)屬高效能 3D 堆疊 DRAM 技術,廣泛應用於 AI 推理及訓練場景,惟其成本較高且供應受限。透過減少對 HBM 依賴,Huawei 可降低 AI 推理系統成本,提升系統擴展性及經濟效益。
資料來源:人民財訊
分享到 :
最新影片