從AI繪畫，再到AI生成視訊，AI人工智能正在一步步地拓寬人們的認知邊界和操作邊界。而在迅猛的發展背後，人們在内容創作、應用場景、甚至商業模式上也可以有更多想象。本篇文章裡，作者便發表了他的看法，一起來看看吧。

九月初的時候，AI繪畫作品《太空歌劇院》在美國獲得了人類藝術競賽一等獎的新聞讓許多人震驚不已。許多人沒有想到，畫沙雕圖的AI竟然這麼快就技能進步到超越了人類。AI作畫的時間從年初以小時為機關到現在短到秒級别，并且繪出的圖像品質越來越高，幾乎接近人類專業畫家的水準。我們在社交媒體中也看到越來越多的人分享他們在各種AI作畫平台上的作品。

AI作畫的風頭正盛，用AI做視訊的應用也悄然而至。九月底Meta小紮公布了自家Make-A-Video的AI視訊制作工具。這款工具可以生成高品質的短視訊。Meta AI做視訊的新聞還沒有焐熱，谷歌也不甘示弱，推出了兩款AI生成視訊的工具：Imagen Video 和 Phenaki。前者傾向于打造視訊品質，後者傾向于視訊的邏輯與時長。這幾款AI視訊制作工具各有特色。

文本生成圖像的AI技術大火才不過幾個月，就直接躍升至文本生成動态視訊。從畫圖到做視訊，AI的發展速度令人訝異，同時令人對未來的數字媒體憧憬。那麼，這種跨越到底會給未來帶來什麼呢？

一、AI做視訊是AI作圖的延伸

在讨論AI生成視訊會給未來帶來哪些改變前，我們先梳理下，AI生成視訊的技術原理和應用場景。

先從Meta家的Make-A-Video看起。在小紮公布的視訊中，我們可以看到一場AI制作的視訊秀，其中一幕是泰迪熊正在畫自畫像。僅僅通過文本描述，Make-A-Video就可以生成一段視訊。官網的案例中，我們會發現還有一些會飛的超人狗狗、喝水的馬等，這些視訊都是由AI生成的。

谷歌的Phenaki工具也類似Make-A-Video，可以通過一系列的文本提示生成有故事性的連貫視訊。如官網展示的騎馬太空人、遊泳的小熊等。

從AI作畫到AI制作視訊，靜态的圖像創作又轉化為動态的視訊演繹一些簡單的情節片段，這些是如何依靠技術達成的呢？

AI繪畫的原理，簡單來說是通過神經網絡模型将圖像與文本連接配接，基于大規模的圖文訓練集對比學習訓練，提取文本與圖像特征互相比對，最終生成關聯程度較高的圖像。

與AI作畫相比，AI生成視訊需要多個AI模型的配合來完成視訊的制作。作畫與做視訊的第一步都需要預訓練文本-圖像模型，先由文本生成大量的圖像。而後續的步驟就出現較大的差别。

AI生成視訊，在完成基本的圖像生成之後，還需要将這些圖檔連起來，變成動态清晰有邏輯的視訊。這就需要額外增加插值模型來處理圖檔變成一幀幀流暢的視訊動作，用超分辨率模型來提升圖像的像素。通過這些模型的處理，讓前後幀之間的過渡動作更加平滑，畫質的像素品質更高，最終生成高分辨率和幀率的視訊。

相較于AI作畫，從技術上來看，視訊可以認為是多張“圖檔”有邏輯、連貫的組成。視訊幀是一張張圖像，各幀之間有畫面、邏輯等層面的關聯。是以，由文生圖與由文生視訊完全是兩種難度級别。AI生成視訊，是AI生成圖像的深度延伸。

AI生成視訊相對更難實作。為什麼AI研究人員會向視訊領域的創作進發？AI做視訊到底有什麼應用價值呢？

二、AI做視訊價值幾何？

移動網際網路的繁榮，催生出了各類社交和流媒體平台。這些平台中豐富的圖文、視訊内容，成為當代人碎片時間的精神食糧。伴随短視訊平台和直播行業的興起，人們對内容的需求越來越旺盛。這也築造了規模龐大的泛内容産業。

對于内容的創作，核心的是創意與效率。但以人為核心模式的創作模式在高速疊代的内容産業中似乎越來越趕不上趟。應用AI技術來輔助内容創作的AIGC模式，開始滲入到泛内容領域中。

從視訊的創作角度來說，在腳本外，尋找比對适合的視訊素材是創作的核心。雖然行業内有大量的素材庫，但尋覓素材的過程耗費時間，并且也不一定能找到符合腳本内容的視訊素材。

面對提升效率與貼合腳本内容的需求，AI生成視訊工具可以很好地解決這類問題。谷歌和Meta的AI視訊工具都可以基于文本描述生成視訊。

Make-A-Video目前可以實作文字轉視訊、圖檔轉視訊、視訊生成視訊三種功能場景。谷歌Imagen Video不僅能生成高清視訊，而且能了解并生成不同藝術風格的作品。而谷歌Phenaki目前可以做到文字轉視訊，并且根據文字描述可以生成較長、情節連貫的作品。Phenaki瞄準的是長視訊的制作。

無論是短視訊領域，還是長視訊領域，面向這些行業，AI生成視訊都會為視訊内容行業的發展賦予價值。

1）提升視訊制作效率的同時降低制作成本。傳統的視訊制作需要腳本、收集素材、剪輯等流程，每一項工作都需要耗費大量的時間與成本。AI生成視訊可以通過文本生成視訊，或者由圖檔、視訊等素材生成視訊，可以降低拍攝或搜集視訊素材的成本。AI可以對應着腳本文本的描述，就能生成視訊，大幅提高視訊制作的效率。

2）增加豐富的創意。AI大模型可以周遊學習所有的創意與風格。從内容的豐富度來說，人類無法企及。通過不同風格、創意素材的喂養，AI視訊生成可以創作出多種風格融合的作品，補充人類制作視訊的創意。

3）增加内容産業價值。AI視訊生成對視訊内容領域的革新，為行業帶來新的應用場景與新工種。AI作畫已經誕生出了新的職業AI畫師。類似AI作圖，AI做視訊也會誕生出新的職業，AI剪輯師，應用AI工具創作視訊。未來AI生成視訊将會與遊戲、影視、媒體等多行業結合，與元宇宙、AR、VR等場景碰撞，創造出更多的場景與産業價值。

不過現下AI生成視訊的發展處于非常初級的階段，并不能完全生成出較完善的視訊。我們在谷歌和Meta中看到的視訊，仍然存在許多問題。比如視訊動作過渡不自然、了解角度詭異、視訊分辨率不高等。

這些情況的出現原因在于AI工具模型的能力不高，對模型投喂的素材資料品質有一定的要求。如果這些問題得不到較好的解決，也會限制未來一些場景的應用可能，如對于像素和邏輯要求較高的商業影視劇。而短平快的小視訊根據分發管道的不同，品質的參差帶來的影響不同。但歸根結底，高品質的視訊内容商業化的可能性會更大。

三、未來的商業模式

AI生成視訊，未來的商業模式取決于不同的應用場景。面對一些制作短視訊為主的小B端企業，如媒體、廣告、電商等行業。谷歌、Meta等AI企業會為這些小B端企業提供AI視訊制作應用服務。類似AI作畫的商業邏輯，可能提供按次收費、按時長付費或者是按照不同功能與需求的制作收費，助力這些行業提升内容創造的效率，增加線上視訊領域的流量。

不過這種商業模式的發展必須以規模化支撐，這樣才能有可持續發展的可能，畢竟AI廠商的視訊工具開發與運維成本較高。

對于以流媒體平台分發為主，制作中長視訊的影視行業來說，需求的頻次與品質要求較高，是以AI廠商需要提供的是解決方案為主的服務，甚至是定制化的服務，提供專屬的創作子產品，比如特效、運鏡、轉場等子產品化工具。這種商業模式的價值高，但對于整個影視行業以及上下遊産業鍊來說，是巨大的變革。産業需要花費較長時間地過渡與适應。

除了影視企業以外，遊戲行業與AI視訊制作也會有可能碰撞出火花。遊戲行業的視訊内容開發可以借助AI生成視訊來提高創意與效率，降低開發的成本。對于遊戲行業的商業模式也會類似影視行業提供專門的行業解決方案。

當然，整個産業領域中，也有一些企業對視訊生成的需求并不高，但也不是完全沒有需求。比如大多數小企業都需要簡單的企業宣傳視訊，或是年度的幾場活動需要視訊内容宣傳支援。一年可能就兩三次的需求，頻次較低。這些企業并沒有專業的視訊制作人員，可能會選擇應用AI生成視訊工具。

如果觀察的視角從企業轉向個體的話，大部分個人消費者也可以應用AI生成視訊來娛樂。就像AI作圖一般，AI生成的視訊也會成為新的社交媒體話題。網友可以通過輸入文本指令生成各種各樣的視訊，交流創意。我們或許會從被投喂的角色，轉化為創作者互相分享，交流創意與思想。

這些商業模式的可能性建立在視訊内容優良與成本合理的前提下。未來AI視訊商業化的過程中，可能依然會面臨版權和倫理的問題。無論是素材庫還是AI生成視訊的風格養成，都離不開人類創作的圖像、視訊等内容。AI工具需要這些人類創作的圖像資料訓練疊代。

這也意味着在版權方面依然存在歸屬争議的灰色地帶。倫理方面，當輸入暴力、血腥、黃色等敏感資訊，生成的内容可能會陷入倫理道德的困境。這些問題會伴随着視訊生成長期存在，需要設定更好的機制與模式去減少這類事情的發生。

與AI做視訊不同，AI作圖最終内容可以抽象。這種圖像内容可能藝術價值更高。但對于視訊來說，内容必須連貫、有邏輯。這也對AI生成視訊的能力提出了要求。AI生成長視訊是否有邏輯，可以根據文本表達出故事性，仍然是個未知數。尤其是一些深度的内容制作，AI是否能夠創作出這類内容需要打個問号。而這些AI到達不了的領域，就是人類創作的價值地所在。

内容的創作，藝術的創作最終導向的是連接配接，或者是連接配接智慧，或者是連接配接靈魂。人們借由藝術表達共鳴，而這些都是AI去不了的場域。未來，或許在AI的内卷下，是人類高品質内容創作的高峰。

作者：燕良

來源公衆号：腦極體（ID：unity007），從技術協同到産業革命，從智能密鑰到已知盡頭。

本文由人人都是産品經理合作媒體 @腦極體授權釋出，未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協定

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

從AI作畫到AI做視訊，這一跳改變了什麼？

一、AI做視訊是AI作圖的延伸

二、AI做視訊價值幾何？

三、未來的商業模式