為解決生成式 AI 高效能模型對記憶體要求過高問題,NVIDIA 公開一項新技術,成功將圖像生成模型 Stable Diffusion 3.5 Large 的顯示記憶體使用量由原來超過 18GB 大幅削減至 11GB,減幅達 40%。透過這項量子化技術,NVIDIA 期望能令運行高階 AI 模型變得更加普及和成本更低。
NVIDIA 與開發 Stable Diffusion 模型的 Stability AI 合作,針對最新版本 Stable Diffusion 3.5 Large 進行深度優化。他們透過 TensorRT 工具和 RTX GPU 上的 Tensor 核心,將模型資料精度轉換為更簡化的數值形式。這種技術稱為「量子化」,能將原本使用 FP32 格式的數據轉為如 FP8 或 INT8 形式,在犧牲部分精度之下換取大幅減少的資料量,達至減省記憶體需求和提升運算效能等多重好處。
經過優化處理後,Stable Diffusion 3.5 Large 模型原本需要超過 18GB 顯示記憶體,現時經量子化後僅需 11GB,即使是搭載 12GB VRAM 的中階顯示卡,例如市場售價約港幣 2,000 元級別的 RTX 3060,也能順利運行。不再局限於使用原本價格接近港幣一萬元等級的高階顯示卡,令更多創作者及開發者能以相宜成本使用大型生成模型。
這項技術不單優化記憶體佔用,更提升運行效能。NVIDIA 表示,在同樣硬件環境下,Stable Diffusion 3.5 Large 模型的處理速度提升至原來的 2.3 倍,而中階版本 Medium 模型亦提升至 1.7 倍。這代表模型不只跑得起,還跑得更快。
經量子化後的優化模型現時已經可以在 Stability AI 的 Hugging Face 頁面下載使用,供開發者整合至各類應用中。此外,NVIDIA 與 Stability AI 正合作推出一項稱為 NIM 的微服務平台,將於 2025 年 7 月推出。屆時,用戶可以更輕鬆將模型應用於多種場景,例如網頁平台、內容生成工具或企業內部系統。
這些技術突破反映 NVIDIA 企圖在生成式 AI 應用方面,進一步降低技術門檻與成本門檻,冀能令人工智能模型真正普及至更多創意和實用應用場景。
資料來源:NVIDIA
分享到 :
最新影片
