天天看點

阿裡達摩院上線文本生成視訊大模型:僅支援英文輸入,已開放試玩

作者:IT之家

IT之家 3 月 22 日消息,近日,阿裡達摩院已在 AI 模型社群“魔搭”ModelScope 上線了“文本生成視訊大模型”。

根據官方介紹,目前文本生成視訊大模型,由文本特征提取、文本特征到視訊隐空間擴散模型、視訊隐空間到視訊視覺空間這 3 個子網絡組成,整體模型參數約 17 億,目前僅支援英文輸入。擴散模型采用 Unet3D 結構,通過從純高斯噪聲視訊中,疊代去噪的過程,實作視訊生成的功能。

阿裡達摩院上線文本生成視訊大模型:僅支援英文輸入,已開放試玩

官方介紹稱,本模型适用範圍較廣,能基于任意英文文本描述進行推理,生成視訊。一些文本生成視訊示例如下:

阿裡達摩院上線文本生成視訊大模型:僅支援英文輸入,已開放試玩

A giraffe underneath a microwave.(一隻在微波爐裡的長頸鹿)

阿裡達摩院上線文本生成視訊大模型:僅支援英文輸入,已開放試玩

A goldendoodle playing in a park by a lake.(一隻金貴犬在湖邊的公園玩耍)

據IT之家了解,模型已經在創空間和 huggingface 上線,可以直接體驗,也可以參考該頁面自行搭建。模型需要硬體配置大約是 16GB 記憶體和 16GB GPU 顯存。在 ModelScope 架構下,通過調用簡單的 Pipeline 即可使用目前模型,其中,輸入需為字典格式,合法鍵值為 'text',内容為一小段文本。該模型暫僅支援在 GPU 上進行推理。

從試玩的結果來看,目前能生成的視訊長度多在 2-4 秒,生成等候時間從 20 多秒到 1 分多鐘不等。

繼續閱讀