普通電腦也可以快速生成圖片　全新 Stable Diffusion 3 Medium 降低運作門檻

2024-06-13

Published by

藍骨

Stable Diffusion 系列模型向來是文字生成圖片 AI 模型的標杆，最新 Stable Diffusion 3 雖然效能強勁，但也對運算器材要求極高。最近 Stability AI 就推出新版本，降低運算門檻。

今次推出的 Stable Diffusion 3 Medium 規模較之前推出的 Stable Diffusion 3 Large 模型小，也是系列首個開源模型。Stability AI 表示，這個版本的表現與 Large 版本相近，同時有更高的資源運用效率。

Stable Diffusion 3 Medium 包含 20 億個參數，透過採用「變分自編碼器（VAE）」，在更小的規模下仍然可以提供優秀的生成細節表現，包括克服手部和面部的常見偽影問題。這個模型還能理解涉及空間關係、構圖元素、動作和風格的複雜提示，在生成文字時實現「前所未有的效果」，而不會出現偽像或拼寫錯誤。

新模型的運作要求只需要最少 5GB 的 GPU VRAM，而 Stability AI 建議使用 16GB GPU VRAM 來運作，這樣雖然仍然算是高要求，但已經可以在一般的消費級 GPU 和企業級 GPU 上運作。目前這個模型已經可以在 Hugging Face 上使用，或者透過 API 和 Stable Artisan Discord 機械人服務試用。

來源：Stability AI