近來，AI技術開始在圖文視訊行業大放異彩，給圖文視訊生成技術帶來了革新。

在2021年百度的大腦圖文轉視訊技術（VidPress）問世，該技術能夠由AI自動剪輯生成視訊，隻需要一鍵輸入上傳Word稿件、新聞網址即可在短時間生成視訊。

該技術是業界首個支撐通用型、大規模的全自動視訊生成技術。

而AI繪畫也開始出現并快速發展，從最早的AI上色網站Paintschainer、到谷歌的Disco Diffusion、還有中國的Tiamat，AI在繪畫領域也“開卷”。

近期Novel AI也在二次元圖檔生成領域有了飛躍式進展，人物繪畫技術取得了很大的進展，最近大火的番劇《電鋸人》也運用了AI技術Midjourney來制作，還掀起了AI繪畫即将取代新人畫師的輿論風潮。

而如今，AI技術生成視訊也有了新的成果：Meta AI推出了Make-A-Video，一種通過時空分解擴散模型将基于擴散的T2I模型擴充到T2V的有效方法，是最先進的人工智能系統，可以利用給定的幾個詞或幾行文字生成一個幾秒鐘的短視訊。

Make-A-Video釋放你的想象力

Meta首席執行官Mark Zuckerberg詳細介紹一個短視訊的制作，“我們給出的描述是這樣的，‘畫自畫像的泰迪熊’、‘戴着針織帽的樹懶寶寶在探索筆記本電腦’、‘在火星上着陸的宇宙飛船’以及‘在海中沖浪的機器人’。生成視訊比生成照片難得多，因為除了正确生成每個像素，Make-A-Video系統還必須預測像素如何随時間變化。”

據了解，Make-A-Video由三個主要部分組成：

1. 基于文本圖像對訓練的基本T2I模型

2. 時空卷積和注意層，将網絡的建構塊擴充到時間次元

3. 時空網絡，由這兩個次元組成時空層，以及T2V生成所需的另一個關鍵元素：用于高幀速率生成的幀内插網絡

相對于百度它對文本生成視訊技術做出了一些更新，百度的大腦圖文轉視訊技術是通過網際網路素材構成的，視訊生成服務依靠豐富大量的素材庫才能完成素材的聚合和視訊的生成；而它能夠完全用AI取代内容生成，它不需要網際網路素材庫也能生成視訊。

Make-A-Video研究建立在文本到圖像生成技術最新進展的基礎上，該技術旨在實作文本到視訊的生成。

該系統使用帶有描述的圖像來了解世界的樣貌以及圖像是如何被描述的，它還能使用未标記的視訊來了解世界是如何運動的。

是以它能給你發揮想象力的空間，不需要網際網路上的素材，隻需要幾句話或者幾行文字就可以生成奇思妙想且獨一無二的視訊。

Make-A-Video開創了T2V新一代的最新技術。

使用函數保持變換，在模型初始化階段擴充了空間層來包含時間資訊；擴充的時空網絡包括新的注意力子產品，可以從視訊集合中學習時間世界動态。

除了用文本生成視訊的功能，它還能将運動添加到單個圖像或者兩個圖像之間填充運動；還可以根據原始視訊建立變體，為視訊添加額外的創意。

Make-A-video相較于以往産品的優勢

Make-A-Video主要有三個優點：

1. 它加快了T2V（文本到視訊）模型的訓練，不需要從頭開始學習視覺和多模式表示。

2. 它不需要成對文本的視訊資料。

3. 生成的視訊繼承了當今圖像生成模型的廣泛性、審美多樣性、幻想性描繪等。

Make-A-Video相較于以前的作品有一個顯著的優勢，其架構打破了T2V生成對文本視訊的依賴，而以前的AI圖文轉視訊技術必須限制在狹窄的領域或需要大規模成對文本視訊資料。

該程式還通過将先前訓練的的T2I網絡中的知識瞬間轉移到新的T2V網絡中，大大加快了T2V教育訓練過程。

同時為了提高視覺品質，訓練了空間超分辨率模型以及幀插值模型；這将提高生成視訊的分辨率，并啟用更高更可控的幀速率。

Make-A-VideoMake a new future

而為了負責任地推進人工智能，減少有害的、有偏見或誤導性的内容，確定這種最先進的視訊技術的安全使用，開發人員采取了一些有效措施。

在源資料方面，由于這項技術通過分析數以萬計的資料來了解世界，為了降低有害内容産生的風險，對過濾器進行了檢查、應用并疊代過濾器，以減少有害内容在視訊中出現的可能性。

在内容方面，由于Make-A-Video可以建立看起來逼真的内容，是以開發人員在生成的所有視訊中添加了水印；這有助于確定觀衆能知道視訊是用人工智能生成的，而不是捕獲的視訊。

而同時開發人員也正在緻力于将這項技術提供給公衆，目前正對Make-A-Video繼續分析、測試和試用，以確定釋出的每一步都是安全的。

向我們周圍的世界學習是人類智力的最大優勢之一，能夠通過觀察快速學習和認識他人、地點、事物和行為；AI如果能夠模仿人類的學習方式，生成系統将更具創造性和實用性。

而未來的工作，開發人員還将緻力于解決技術限制，如今的方法還無法學習文本和隻能在視訊之中推斷出的現象之間的關聯。

如何整合這些内容，以及生成更長的包含多個場景和事件的視訊，描述更詳細的故事，讓我們期待其未來的發展吧。

作者：譚穎排版：孔瀚越

圖檔源于Q仔網際網路沖浪所得，若有侵權，背景聯系，Q仔滑跪删除~

Meta新推出Make-A-Video，幾個字生成視訊，連視訊類部落客也要集體

Make-A-Video釋放你的想象力

Make-A-video相較于以往産品的優勢

Make-A-VideoMake a new future

繼續閱讀

Kafka：Topic概念與API介紹

5G小型蜂應用指南

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧