天天看點

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

作者:開山怪阿土

這裡所有文章均來自

微信公衆号“火星AIGC”

想要看到更多更新的AI前沿資訊、AI資訊和AI工具實操,請關注微信公衆号“火星AIGC”。

南開大學視與位元組跳動公司合作釋出了開源 StoryDiffusion 架構,這是一個革命性的圖像和視訊生成項目,可以生成長序列一緻性的圖像和視訊,目前全球還沒有可實用的同類 AI 項目。通過 StoryDiffusion 可以一鍵生成人物一緻,場景一緻的系列漫畫,簡直是為漫畫制作人和内容創作者定制的 AI 工具。

視訊加載中...

StoryDiffusion- Consistent Self-Attention for Long-Range Image and Video Generation

目前讓圖像生成保持一緻性的項目主要有 IPAdapter 和 PhotoMaker,兩者利用在大型資料集上經過預訓練的模型,允許直接使用給定的圖像來控制圖像的生成,實操過AI繪畫的朋友應該知道,它們的局限性在哪裡,人物在保持一緻性的情況下,衣服、場景甚至頭發顔色樣式不可控。

不一樣的是 StoryDiffusion 通過提出一緻性的自我關注來建立各種風格的圖像,可以在多個圖像中保持主題的一緻性,包括一緻性的角色風格和服裝以實作連貫的故事講述,并且是無訓練和可插拔的。看一下圖像生成效果。

StoryDiffusion 可以建立令人驚歎的一緻卡通風格的角色。

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

StoryDiffusion 在多個角色生成中,也可以同時維護多個角色的身份,并在圖像序列中生成一緻的角色。

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

一鍵生成系列漫畫的效果

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion
南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion
南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion
南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

以上官方展示效果驚人,經過試用實測的結果跟官方展示一樣。

這還僅僅是圖像生成,StoryDiffusion 還可以通過其圖像語義運動預測器以生成的一緻圖像或使用者輸入圖像為條件生成高品質視訊。官方釋出了很多視訊demo,也許達不到 Sora 那麼長,但在視訊中的主體一緻性上面已經可以跟 Sora 比肩了。

視訊加載中...

視訊加載中...

視訊加載中...

視訊加載中...

視訊加載中...

視訊加載中...

視訊加載中...

技術簡介

StoryDiffusion 主要通過以下兩個子產品元件來實作上述效果——根據預定義的文本故事生成包含豐富内容的一緻性圖像或視訊序列。

一緻性自注意力機制 (Consistent Self-Attention):

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

該子產品無需訓練,可直接插入到現有的圖像生成模型中。

它通過在生成過程中在圖像批次之間建立連接配接,有效地生成了面部和服裝一緻的圖像,進而提升了人物的一緻性。

這種方法提高了使用者通過文本提示控制生成内容的能力。

語義運動預測器 (Semantic Motion Predictor):

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

該子產品用于将一系列一緻性圖像轉換為視訊,使其更加生動地講述故事。

它通過将圖像編碼到語義空間,捕捉空間資訊,進而更準确地預測運動,即使是大幅度的動作也能夠流暢地表現出來。

與僅依賴圖像潛在空間預測運動的方法相比,語義空間的預測結果更加穩定,尤其是在生成長視訊時效果更為顯著。

如何使用

目前官方提供兩種使用方法,一是本地部署,二是網絡試用。

本地部署有兩種途徑,一是Python克隆安裝項目,需要注意的是顯示卡至少在20G顯存以上。另一種是通過本地電腦上的 pinokio一鍵安裝運作。

網絡試用也用兩種途徑,一是谷歌的colab雲筆記本上運作,二是在抱抱臉空間試用。我在抱抱臉上試用了一下,主體一緻性非常好,除了一些小瑕疵,效果完全跟官方展示一樣。

南開大學釋出革命性的圖像和視訊生成項目 StoryDiffusion

1.支援圖檔參考圖檔,(現在不支援卡通參考圖像)。

2.支援排版風格和字幕。(預設情況下,提示用作每張圖像的标題。如果需要更改标題,請在每行末尾添加一個#。隻有#之後的部分才會添加為圖像的标題)。

3.[NC]符号([NC]符号用作标志,表示生成的場景圖像中不應出現任何字元。如果要這樣做,請在行的開頭加上“[NC]”。例如,要生成沒有任何字元的落葉場景,請寫:“[NC]The leaves are falling。”)。

目前隻有圖像生成功能,官方并沒有提供視訊生成的代碼。官方論文中也提到,雖然可以使用滑動視窗生成較長的視訊,但 StoryDiffusion 并非專門為長視訊生成而設計,是以在生成超長視訊時效果可能不夠理想。StoryDiffusion 在生成一緻性圖像時,對于一些細微的服裝細節 (如領帶) 可能存在不一緻的情況,需要更詳細的文本提示才能保持一緻性。

StoryDiffusion 是AI生成一緻性方面的開創性探索,為内容一緻性方面的AI生成能力提供了新的視角。随着AI的不斷發展,像 StoryDiffusion 這樣的工具将在故事講述和内容創作的方面發揮至關重要的作用。

論文位址:arxiv.org/abs/2405.01434

項目位址:github.com/hvision-nku/storydiffusion

試用位址:huggingface.co/spaces/YupengZhou/StoryDiffusion

繼續閱讀