Stable Diffusion 系列模型向來是文字生成圖片 AI 模型的標杆,最新 Stable Diffusion 3 雖然效能強勁,但也對運算器材要求極高。最近 Stability AI 就推出新版本,降低運算門檻。
今次推出的 Stable Diffusion 3 Medium 規模較之前推出的 Stable Diffusion 3 Large 模型小,也是系列首個開源模型。Stability AI 表示,這個版本的表現與 Large 版本相近,同時有更高的資源運用效率。
Stable Diffusion 3 Medium 包含 20 億個參數,透過採用「變分自編碼器(VAE)」,在更小的規模下仍然可以提供優秀的生成細節表現,包括克服手部和面部的常見偽影問題。這個模型還能理解涉及空間關係、構圖元素、動作和風格的複雜提示,在生成文字時實現「前所未有的效果」,而不會出現偽像或拼寫錯誤。
新模型的運作要求只需要最少 5GB 的 GPU VRAM,而 Stability AI 建議使用 16GB GPU VRAM 來運作,這樣雖然仍然算是高要求,但已經可以在一般的消費級 GPU 和企業級 GPU 上運作。目前這個模型已經可以在 Hugging Face 上使用,或者透過 API 和 Stable Artisan Discord 機械人服務試用。
來源:Stability AI
香港科技大學首席副校長 : 生成式 AI 或能為教育重新注入探究、思考、辯證等重要本源 客製化「生成式 AI」越來越受重視 如何改變 AI 行為,應對企業需求? 生成式 AI 安全不容忽視 業界專家分享及實用指南