OpenAI 的視訊生成工具 Sora在2月份讓業界大吃一驚,其流暢、逼真的視訊似乎遠遠領先于競争對手。然而這場精心策劃的首次亮相,留給了大衆太多不為人知的細節。
近日, OpenAI 大火的宣傳短片的制作團隊之一的Shy Kids接受了媒體采訪,并分享了自己作為少數最早使用Sora技術的視訊創作者的酸甜苦辣。
OpenAI Sora宣傳短片之一(Air Head 氣球人)
Shy Kids 是一個位于多倫多的數字制作團隊,被 OpenAI 選為少數幾個主要出于 OpenAI 宣傳目的制作短片的團隊之一,他們在創作“Air Head”時被賦予了相當大的創作自由。
而且值得注意的是,這些短片并不完全是由Sora生成的,在接受媒體采訪時,後期制作藝術家 Patrick Cederberg 将“實際使用 Sora”描述為“這隻是他作品的一部分”。
然而大衆卻可能會先入為主地認為:這些逼真生動的短片完全是由 Sora 制作的。
然而,事實是這些都是專業制作,配有強大的故事闆、編輯、色彩校正,以及動态觀察和視覺特效等後期工作。
就像蘋果公司在宣傳時說“在 iPhone 上拍攝”,但事後沒有展示工作室設定、專業燈光和色彩工作一樣,Sora 的文章隻談論它讓人們做什麼,而不是他們實際上是如何做到的。
Cederberg 的采訪很有趣,而且非常非技術性。盡管Sora模型令人印象深刻,但它可能并沒有我們想象的那般美好。
并沒有适當的功能集來完全控制一緻性
目前,控制仍然是最令人渴望的,也是最難以捉摸的。……我們能得到的最接近的結果就是在提示中進行過度描述。解釋角色的服裝以及氣球的類型是我們解決一緻性的方法,因為逐個鏡頭/一代又一代,還沒有适當的功能集來完全控制一緻性。
換句話說,傳統電影制作中的簡單問題(例如選擇角色服裝的顔色)到了Sora這裡,反而需要更為複雜的解決方法,同時需要在生成系統中進行檢查,因為每個鏡頭都是獨立于其他鏡頭建立的。這種情況後續可能會改善,但目前肯定還是非常費力。
此外,還必須注意Sora的輸出是否有多餘的元素:Cederberg描述了模型如何在氣球上生成一張臉(主角的頭部),或者一條挂在前面的繩子。如果他們無法通過提示可以删除這些臉或繩子,那麼就必須通過後期删除它們,這是另一個耗時的過程。
人物或錄影機的精确時間和動作的控制,實際上也是做不到的:“對于這些不同動作在實際生成中發生的位置有一點時間控制,但這并不精确......這有點像在黑暗中拍攝,”說Cederberg。
例如,與手動動畫不同,對像揮手這樣的手勢進行計時是一個非常近似的、“建議驅動”的過程。像角色身體向上平移這樣的鏡頭,也并不總是能呈現出電影制片人想要的内容。在這種情況下,團隊不得不自己渲染一個縱向構圖的鏡頭,并在後期進行了裁剪平移。生成的剪輯也經常是慢動作,沒有特殊原因。
Sora的一個鏡頭以及它如何在短片中生成的
Cederberg說,事實上,使用電影制作的日常語言,比如“向右平移”或“跟蹤鏡頭”,一般來說是不一緻的,團隊發現這非常令人驚訝。
“研究人員在讓藝術家使用這個工具之前,并沒有真正像電影制作人那樣思考,”他說。
結果,該團隊進行了數百次生成,每次生成 10 到 20 秒,最終隻使用了其中的少數作品。Cederberg 估計該比例為 300:1 — 但當然,我們可能都會對普通拍攝的比例感到驚訝。
此外,該團隊實際上制作了一些幕後視訊來解釋他們遇到的一些問題。就像許多與人工智能相關的内容一樣,這些評論對整個努力相當批評——盡管不像我們最近看到的受到嘲笑的人工智能輔助廣告那麼謾罵。
Sora有某種機制拒絕涉嫌版權問題的生成
最後一個有趣的問題與版權有關:如果你要求 Sora 給你一個“星球大戰”剪輯,它會拒絕。如果你試圖用“複古未來派宇宙飛船上拿着雷射劍的長袍男子”來繞過它,它也會拒絕,因為它通過某種機制識别出你想要做什麼。它還拒絕進行“阿羅諾夫斯基式鏡頭”或“希區柯克變焦”。
一方面,這是完全有道理的。但它确實提出了一個問題:如果 Sora 知道這些是什麼,是否意味着模型接受了該内容的訓練,可以更好地識别它是否侵權?OpenAI 将其訓練資料卡保密到了荒謬的地步,就像首席技術官 Mira Murati 接受喬安娜·斯特恩 (Joanna Stern) 的采訪一樣,幾乎可以肯定永遠不會告訴我們。
至于 Sora 及其在電影制作中的使用,它顯然是一個強大且有用的工具,但它的作用并不是“用整塊布制作電影”。“那會是後來的事。”