天天看點

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

上月底,名為“chaindrop”的 Reddit 使用者,在 r/StableDiffusion subreddit 上分享了一個由人工智能生成的視訊,在業内引起了不小的争議。

視訊中,一個由 AI 生成的醜陋畸形的 “威爾·史密斯”,以一種可怕的熱情将一把意大利面條鏟進嘴裡。這一 “地獄般” 的視訊迅速傳播到其他形式的社交媒體,數字媒體和廣播公司 Vice 表示該視訊将 “伴随你的餘生”,美國娛樂網刊 The A.V. Club 稱其為 “AI 開發的自然終點”。僅在 Twitter 上,這一視訊的觀看次數就超過了 800 萬。

下面這段動圖是其中的部分内容。每一幀都以不同的角度展示了模拟的威爾·史密斯狼吞虎咽地吃着意大利面的場景。

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

自從威爾·史密斯吃意大利面的視訊瘋狂傳播後,網際網路上就出現了斯嘉麗·約翰遜和喬·拜登吃意大利面等後續報道,甚至還有史密斯吃肉丸子的視訊。盡管這些可怕的視訊正在成為網際網路中完美且 “恐懼” 模因素材,但就像之前的文生圖以及每一種 AI 生成的内容一樣,文生視訊(Text2Video)正加速走進我們的生活。

文生視訊:你寫腳本,我做視訊

“威爾·史密斯吃意大利面”的視訊出自開源 AI 工具 ModelScope 模型,建立這一視訊的工作流程相當簡單:僅需給出“Will Smith eating spaghetti”的提示,并以每秒 24 幀(FPS)的速度生成。

據了解,ModelScope 是一種 “文生視訊” 擴散模型,經過訓練可以通過分析收集到 LAION5B、ImageNet 和 Webvid 資料集中的數百萬張圖像和數千個視訊,根據使用者的提示來建立新視訊。這包括來自 Shutterstock 的視訊,是以在其輸出上有幽靈般的 “Shutterstock” 水印,就像視訊中所展示的那樣。

目前,在文生視訊這一賽道,國内外大廠和研究機構也在悄然競争。早在去年 9 月 29 日,Meta 就釋出了 Make-A-Video,在最初的公告頁面上,Meta 展示了基于文本生成的示例視訊,包括 “一對年輕夫婦在大雨中行走” 和 “一隻正在畫肖像的泰迪熊”。

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

同時,Make-A-Video 具備拍攝靜态源圖像并将其動畫化的能力。例如,一張海龜的靜止照片,一旦通過 AI 模型處理,就可以看起來像是在遊泳。

僅僅在 Meta 推出 Make-A-Video 不到一周後,Google 便釋出了 Imagen Video,它能夠根據書面提示以每秒 24 幀的速度生成 1280×768 的高清晰視訊。Imagen Video 包括幾個顯著的風格能力,例如根據著名畫家的作品(如梵高的畫作)生成視訊,生成 3D 旋轉對象同時保留對象結構,以及渲染文本多種動畫風格。Google 希望,這一視訊合成模型能夠 “顯著降低高品質内容生成的難度”。

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

随後,Google 推出了另一個文生視訊模型 Phenaki。差別于 Imagen Video 主打視訊品質,Phenaki 主要挑戰視訊長度。它可以根據詳細提示建立更長的視訊,實作 “有故事、有長度”。它生成任意時間長度的視訊能力來源于其新編解碼器 CViVIT——該模型建立在 Google 早期文生圖系統 Imagen 中磨練的技術之上,但在其中加入了一堆新元件,進而可以将靜态幀轉換為流暢的運動。

今年 2 月 6 日,Stable Diffusion 背後的原始創業公司 Runway 推出了視訊生成 AI——Gen-1 模型,可以通過使用文本提示或者參考圖像所指定的任意風格,将現有視訊轉換為新視訊,改變其視覺風格。3 月 21 日,Runway 釋出 Gen-2 模型,專注于從零開始生成視訊,通過将圖像或文本提示的構圖和樣式應用于源視訊的結構(視訊到視訊),或者,隻使用文字(文生視訊)。

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界
AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

踩在"文生圖"的肩膀上

Make-A-Video 等文生視訊模型背後的關鍵技術——以及為什麼它比一些專家預期得更早到來——是因為它踩在了“文生圖”技術巨人的肩膀上。

據 Meta 介紹,他們不是在标記的視訊資料(例如,描述的動作的字幕描述)上訓練 Make-A-Video 模型,而是采用圖像合成資料(用字幕訓練的靜止圖像)并應用未标記的視訊訓練資料,以便模型學習文本或圖像提示在時間和空間中可能存在的位置的感覺。然後,它可以預測圖像之後會發生什麼,并在短時間内顯示動态場景。

從 Stable Diffusion 到 Midjourney,再到 DALL·E-2,文生圖模型已經變得非常流行,并被更廣泛的閱聽人使用。随着對多模态模型的不斷拓展以及生成式 AI 的研究,業内近期的工作試圖通過在視訊領域重用文本到圖像的擴散模型,将其成功擴充到文本到視訊的生成和編輯任務中,使得使用者能夠僅僅給出提示便能得到想要的完整視訊。

早期的文生圖方法依賴于基于模闆的生成和特征比對等方法。然而,這些方法生成逼真和多樣化圖像的能力有限。在 GAN 獲得成功之後,還提出了其他幾種基于深度學習的文生圖方法。其中包括 StackGAN、AttnGAN 和 MirrorGAN,它們通過引入新的架構和增強機制進一步提高了圖像品質和多樣性。

後來,随着 Transformer 的進步,出現了新的文生圖方法。例如,DALL·E-2 是一個 120 億參數的變換器模型:首先,它生成圖像令牌,然後将其與文本令牌組合,用于自回歸模型的聯合訓練。之後,Parti 提出了一種生成具有多個對象的内容豐富的圖像的方法。Make-a-Scene 則通過文生圖生成的分割掩碼實作控制機制。現在的方法建立在擴散模型的基礎上,進而将文生圖的合成品質提升到一個新的水準。GLIDE 通過添加無分類器引導改進了 DALL·E。後來,DALL·E-2 利用了對比模型 CLIP:通過擴散過程,從 CLIP 文本編碼到圖像編碼的映射,以及獲得 CLIP 解碼器……(點選了解文生圖的前世與今生)

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

這些模型能夠生成具有高品質的圖像,是以研究者将目光對準了開發能夠生成視訊的文生圖模型。然而,文生視訊現在還是一個相對較新的研究方向。現有方法嘗試利用自回歸變換器和擴散過程進行生成。

例如,NUWA 引入了一個 3D 變換器編碼器-解碼器架構,支援文本到圖像和文本到視訊的生成。Phenaki 引入了一個雙向掩蔽變換器和因果關注機制,允許從文本提示序列生成任意長度的視訊;CogVideo 則通過使用多幀速率分層訓練政策來調整 CogView 2 文生圖模型,以更好地對齊文本和視訊剪輯;VDM 則聯合訓練圖像和視訊資料自然地擴充了文生圖擴散模型。

前面展示的 Imagen Video 建構了一系列視訊擴散模型,并利用空間和時間超分辨率模型生成高分辨率時間一緻性視訊。Make-A-Video 在文本到圖像合成模型的基礎上,以無監督的方式利用了視訊資料。Gen-1 則是擴充了 Stable Diffusion 并提出了一種基于所需輸出的視覺或文本描述的結構和内容引導的視訊編輯方法。

如今,越來越多的文生視訊模型不斷疊代,我們可以看到,2023 年似乎将要成為 “文生視訊” 的一年。

生成式AI下一站:需要改進,需要警惕

盡管複用了文生圖的技術與訓練集,但在視訊領域應用擴散模型并不簡單,尤其是由于它們的機率生成過程,很難確定時間一緻性。即主要主體往往在幀與幀之間看起來略有不同,背景也不一緻,這使得完成的視訊看起來一切都在不斷運動,缺乏真實感。同時,大多數方法都需要大量的标記資料并進行大量的訓練,這是極其昂貴并難以負擔的。

近日,由 Picsart AI Resarch(PAIR)團隊介紹的一種新穎的零樣本的文本到視訊生成任務,提出了一種低成本的方法,通過利用現有的文本到圖像合成方法(如 Stable Diffusion),将其應用于視訊領域。該研究主要進行了兩個關鍵修改:一是為生成幀的潛在代碼添加動态運動資訊,以保持全局場景和背景時間的一緻性;二是使用新的跨幀注意力機制,對每個幀在第一幀的關注,重新程式設計幀級自注意力,以保持前景對象的上下文、外觀和身份。

AIGC的下一站:期待、警惕充斥着AI剪輯師的世界

圖|Text2Video-Zero使用(i)文本提示(見第1、2行)、(ii)結合姿勢或邊緣指導的提示(見右下角)和(iii)視訊指令-Pix2Pix,即指令引導視訊編輯(見左下角),實作零樣本視訊生成。結果在時間上是一緻的,并嚴格遵循指導和文本提示。

這個方法的意義在于它具有低開銷,同時能生成高品質且相當一緻的視訊。此外,這種方法不僅适用于文本到視訊合成,還适用于其他任務,如條件和内容專用視訊生成,以及視訊指導下的圖像到圖像翻譯。

實驗證明,這種方法在性能上可與最近的方法相媲美,甚至在某些情況下優于它們,盡管它沒有在額外的視訊資料上進行訓練。這項技術可以用于創作動畫、廣告和短片,節省成本和時間。此外,它還可以在教育領域提供可視化材料,使學習變得更加生動有趣。

然而,随着不斷的技術疊代,這些文生視訊 AI 模型将變得更加精确、逼真和可控。就像是恐怖的 “史密斯吃意大利面” 視訊一樣,這些工具很可能被用來生成虛假、仇恨、露骨或有害的内容,信任與安全等問題也逐漸湧現。

谷歌稱,Google Imagen Video 的訓練資料來自公開可用的 LAION-400M 圖像文本資料集和 “1400 萬個視訊文本對和 6000 萬個圖像文本對”。盡管它已經接受了谷歌過濾的 “有問題的資料” 的訓練,但仍然可能包含色情和暴力内容——以及社會刻闆印象和文化偏見。

Meta 也承認,按需制作逼真的視訊會帶來一定的社會危害。在公告頁面的底部,Meta 表示,所有來自 Make-A-Video 的人工智能生成的視訊内容都包含一個水印,以 “幫助確定觀衆知道視訊是用人工智能生成的,而不是捕獲的視訊”。但是,競争性的開源文生視訊模型可能會随之而來,這可能會使 Meta 的水印保護變得無關緊要。

美國麻省理工學院人工智能教授菲利普·伊索拉就表示,如果看到高分辨率的視訊,人們很可能會相信它。也有專家指出,随着人工智能語音比對的出現,以及逐漸擁有改變和建立幾乎觸手可及的逼真視訊的能力,僞造公衆人物和社會大衆的言行可能會造成不可估量的傷害。但是,“潘多拉的魔盒已經打開”,作為生成式 AI 的下一站,文生視訊的技術需要不斷改進,與此同時,依然需要警惕安全與倫理風險。

繼續閱讀