天天看點

阿裡雲推視訊生成大模型 未來可應用于電影制作

【環球網科技綜合報道】9月6日消息,近日,阿裡雲推出全新視訊生成大模型I2VGen-XL,并在魔搭社群開放體驗,使用者上傳一張圖檔後2分鐘左右即可生成一段1280*720的高分辨率視訊,該模型研發負責人表示,未來将進一步實作2K超清效果,可應用于短視訊内容生産、電影制作等場景。

阿裡雲推視訊生成大模型 未來可應用于電影制作

I2VGen-XL在魔搭社群開放體驗

和業界爆火的AI繪畫創作大模型不同,視訊生成大模型的技術門檻更高,其需要克服文本和視訊内容比對度、視訊畫面品質、畫面連續性等諸多技術挑戰。在此之前,阿裡雲和微軟等科技公司相繼推出一系列可控視訊生成研究成果,例如使用者可通過定義空間布局、運動模式等條件來生成視訊,但其畫面清晰度難以滿足真實場景應用的需求。

針對該問題,阿裡雲進一步提出新思路,I2VGen-XL模型設計了兩個階段,首先在低分辨率條件下保證生成結果和給定圖像語義的比對度,随後通過視訊擴散模型(VLDM)來提高視訊分辨率,并同時提升時間和空間上的一緻性,保證最終視訊内容的清晰度和連貫性,最終實作1280*720高分辨率的突破,并且在畫面細節的展現上大幅領先現有模型。據介紹,該模型的訓練還使用了多種風格的視訊資料,是以可生成科技感、電影色、卡通風格和素描等類型豐富的視訊。

阿裡雲推視訊生成大模型 未來可應用于電影制作

I2VGen-XL流程圖

目前,I2VGen-XL的模型和代碼均已開源,國内外社交媒體顯示,該模型已吸引國内外使用者和開發者的廣泛體驗和二次開發,湧現了大量創意AI視訊生成内容,例如在城堡上展翅的恐龍、宇航員在飛船中行走的科幻電影畫面等等……知名AI社交媒體分析師Ahsen Khaliq在社交媒體釋出多條由該模型生成的視訊效果,并表示模型在清晰度、紋理、語義和時間連續性方面有優勢。

阿裡雲推視訊生成大模型 未來可應用于電影制作

國内外網友和開發者廣泛關注和體驗

據了解,在視覺生成領域,阿裡雲此前已推出AI繪畫創作大模型通義萬相(基座模型Composer)和可控視訊生成模型VideoComposer,團隊在該領域發表60多篇CCF-A類論文,并在國際頂級視覺競賽中獲得10餘項冠軍。

來源:環球網

繼續閱讀