最強開源文生圖模型SDXL 1.0釋出，少量提示詞即可生成高品質圖檔

中原標準時間7月27日淩晨，千呼萬喚始出來，Stability AI釋出了SDXL 1.0模型！

作為新一代文生圖模型的正式大版本，是否稱得上是全球最強的開源圖檔生成模型呢？個人覺得可以的！

此前，SDXL 0.9版本作為研究性質的模型提前釋出，看得很多人心癢難耐。0.9的命名，就好像迅雷下載下傳卡在了99%進度條一樣，讓人難受。

SDXL 1.0采用了來自Stability AI的圖像控制技術

繼Stable Diffusion 2.1之後，Stability AI釋出最強文生圖模型

SDXL 1.0 是 Stability AI 旗下最強圖像生成模型，算是更新版的Stable Diffusion，它是目前最強的開源圖像生成模型。

收集了來自很多人的回報資料後發現，人們更喜歡由 SDXL 1.0 生成的圖像。SD2.1不如1.5也很真實，帶有refiner的SDXL 0.9效果會更好。

SDXL 1.0更适合複雜抽象概念和設計風格的圖像

SDXL 幾乎可以生成任何藝術風格的高品質圖像，即使不寫出特定的提示詞，也可以生成不同的圖像，風格自由度很高。

此外，SDXL 1.0 在色彩鮮豔度和準确度方面有很多調整，對比度、光照和陰影表現都比上一代更好。

值得一提的是，圖檔分辨率全部采用原生 1024x1024 分辨率。

此外，SDXL 還解決了生成手的難題，還能生成文字，還能描述空間結構資訊。

比如，下圖有一張描述的是：背景中的女人追逐前景中的狗。

更好的空間控制能力，更強的風格控制能力，更逼真的效果

簡潔的語言就能生成高品質圖檔

現在，SDXL 隻需幾個簡單的提示詞就能建立複雜、細緻、好看的圖檔。使用者不使用 "masterpiece "這種提示詞就能生成高品質的圖像，終于告别冗長的各種起手式了。

此外，SDXL 的文本了解能力也上了新台階，比如，能了解 "The Red Square"（俄羅斯紅場）與 "red square"（一種形狀）等概念之間的差別。

簡單的提示詞，高品質的輸出

最大的開源圖像模型

SDXL 1.0是參數最多的開源圖像模型之一，它基于一個全新的架構來建構，由一個包含35億參數的基礎模型和一個66億參數的精煉器（refiner）組成。

工作流程兩步：第一步，基礎模型生成帶噪聲的潛在變量。然後，通過去噪模型進行進一步處理。請注意，基礎模型也可以作為一個獨立的子產品使用。

兩步的流程，使得模型可以在不降低速度，計算資源占用較少的情況下穩定地生成圖檔。

SDXL 1.0能在有8GB顯存的消費級顯示卡上運作，當然也能在公有雲上正常工作。

微調和進階控制

使用SDXL 1.0，用自己的資料對模型進行微調變得更簡單了。生成LoRa或checkpoint需要的資料整理工作更少了。

Stable Diffusion 1.5的時候，最少5張圖檔就能微調LoRa，現在需要的照片更少了嗎？這個可以等大佬出教程，自己試試就知道了。

Stability AI團隊正在建構下一代的面向特定任務的結構、風格和構圖控制能力，這是一個專門為SDXL優化的T2I / ControlNet，這部分目前處于測試預覽階段。

現在就想用SDXL 1.0的話可以試試這幾種方式：

第一個，線上通過Clipdrop來通路，這是最簡單的。免費使用者就得多等幾分鐘，付費獲得更好的優先級，簡單試了試，确實很強！

第二個，想自己本地部署的朋友可以在GitHub上下載下傳權重參數，更新AUTOMATIC1111之後，把它跟别的模型放在一起就能直接用。

第三個，SDXL 1.0 開放了API，可以去官網上付費申請使用。

第四個，此外，SDXL 1.0還可以在AWS的SageMaker和Bedrock上使用。

SDXL 1.0 的License授權使用的是CreativeML OpenRAIL++-M，沒太搞清楚能否能商用。

最後分享我用SDXL 1.0做的一張圖：

Prompt:A realistic photo of a cyberpunk cat wearing a jacket

模型權重參數下載下傳：

https://github.com/Stability-AI/generative-models

繼續閱讀