天天看點

35 億 +66 億參數雙模型,消費級顯示卡上也能跑!Stability AI 重大更新

作者:InfoQ

作者 | 李冬梅、核子可樂

即使公衆對創始人産生了諸多質疑,但不影響 Stability AI 在文本生成圖像領域的持續推進。

日前,Stability AI 釋出了 SDXL 0.9,這是其 Stable Diffusion 文本到圖像模型的最新版本,代表 Stability AI 文本到圖像模型套件迎來了新的發展裡程碑。

繼今年 4 月成功釋出 Stable Diffusion XL beta 之後,SDXL 0.9 在圖像和構圖細節方面繼續做出大幅突破。SDXL 0.9 是一款強大的工具,可用于在各種創意産業中建立高度逼真的圖像。與之前的版本相比,此更新的模型對生成圖像的品質和細節帶來了重大改進。

SDXL 0.9 有哪些重大更新?

現在使用者已可通過 ClipDrop 通路該模型,API 也将在不久後推出。研究人員正在努力完善 1.0 版本,相關成果包括權重設定預計将在七月中旬與大家見面。

SDXL 0.9 在繼續保持通過現代消費級 GPU 運作的能力之外,在生成 AI 圖像的創意用例方面也實作了飛躍。SDXL 能夠為影視劇、音樂和教學視訊生成超現實風格的創作結果,也具備在設計和工業用途中一展身手的水準。

示例:

在 SDXL beta(左)和 0.9 版本上以相同提示詞進行測試,即可展現該模型在短短兩個月内取得的重大進展。

35 億 +66 億參數雙模型,消費級顯示卡上也能跑!Stability AI 重大更新

提示詞: 美學、外星人拉在拉斯維加斯的人群中,粗砺的膠片攝影

(左圖 - SDXL Beta, 右圖- SDXL 0.9)

35 億 +66 億參數雙模型,消費級顯示卡上也能跑!Stability AI 重大更新

提示詞: 優勝美地國家公園的狼,冷冽的自然紀實膠片攝影

負提示: 3d 渲染、平滑、塑膠、模糊、顆粒感、低分辨率、動漫、過飽和、奶油感

(左圖 - SDXL Beta, 右圖 - SDXL 0.9)

SDXL 系列還提供一系列超出基礎文本提示的功能。其中包括圖像到圖像提示(輸入一張圖像,以擷取該圖像的更多變體)、填充(重建圖像内的缺失部分)和外延(根據現有圖像無縫向外擴充)。簡單來說,它可以讓使用者更有創意,以更進階有趣的方式對圖像進行更改。

SDXL 0.9 背後的力量

那麼,SDXL 0.9 的底層技術到底是怎樣的?

據 Stability AI 介紹,SDXL 0.9 之是以取得重大進展,核心驅動因素在于參數數量(模型訓練時神經網絡中所有權重和偏差的總和)較 Beta 版本有了顯著增加。

SDXL 0.9 是目前所有開源圖像模型中參數量最大的模型之一,基礎模型擁有 35 億參數,模型內建管線擁有 66 億參數(最終輸出由兩套模型的運作聚合結果建立而成)。管線的第二階段模型,專門用于向第一階段模型生成的輸出添加更多精巧細節。

相比之下,之前的 beta 版權擁有 31 億參數并使用單一模型。

SDXL 0.9 運作在兩個 CLIP 模型之上,其中包括迄今為止訓練的最大 OpenCLIP 模型之一 OpenCLIP ViT-G/14。它增強了 SDXL 0.9 的處理能力,使其能夠建立出更具深度和 1024 x 1024 更高分辨率的逼真圖像。

SDXL 團隊将很快釋出一篇研究部落格,詳細介紹該模型的規格和測試情況。

盡管具有強大的輸出和更先進的模型架構,但 SDXL 0.9 仍能夠在現代消費級 GPU 上運作。具體配置要求為:

  • Windows 10 或 11/Linux 作業系統;
  • 16 GB 記憶體、英偉達 GeForce RTX 20 系列顯示卡(或更高版本)且至少配備 8 GB 顯存;
  • Linux 使用者也可以使用配備 16 GB 顯存的 AMD 相容顯示卡。

測試版釋出期間獲得積極反響

Stability AI 因于 2022 年 8 月推出開源圖像生成器 Stable Diffusion 而聞名,進一步加劇了其與 OpenAI 的 Dall-E 和 MidJourney 的競争。

近日,Stability AI 剛被《時代》周刊評為 2023 年最具影響力的公司之一。其他出現在榜單上的人工智能公司還有 OpenAI(ChatGPT)、Hugging Face(協作開源人工智能平台)、Runway AI(生成視訊)、Nvidia 和谷歌 DeepMind。

自 4 月 13 日 SDXL beta 版釋出以來,Stability AI 在 Discord 社群上收到近 7000 名使用者的熱烈響應。使用者們生成了超過 70 萬張圖像,平均每天超過 2 萬張。超過 5.4 萬張圖像進入 Discord 社群的“Showdowns”評選,最終有 3521 張 SDXL 圖像被評為優秀作品。

可用性和未來計劃

SDXL 0.9 現已在 Clipdrop by Stability AI 平台上釋出。Stability AI API 及 DreamStudio 用戶端将于 6 月 26 日星期一開放該模型,同時提供 NightCafe 等其他領先的圖像生成工具。

SDXL 0.9 目前暫時僅供研究學習目的使用,希望在全面釋出前收集回報并充分完善模型。相關代碼後續将在 GitHub(https://github.com/Stability-AI/generative-models)上公開。

如果研究人員希望通路這些模型,請通過以下連結申請:SDXL-0.9-Base 模型(https://huggingface.co/stabilityai/stable-diffusion-xl-base-0.9)、SDXL-0.9-Refiner(https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9)。

Stability AI 一再強調,目前 SDXL 0.9 僅用于研究學習目的。

SDXL 1.0 計劃在今年七月中旬(時間標明)全面釋出。SDXL 0.9 遵循非商用、僅供研究的許可證釋出,并受相關使用條款的限制。

參考連結:

https://stability.ai/blog/sdxl-09-stable-diffusion

繼續閱讀