天天看點

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

有一說一,哥們是真不知道這個月什麼情況。

這些個廠商們就像紮堆看了同一本黃曆一樣,都趕着這個月搞事情。

12 号好幾家連着開釋出會咱就不多說了,上周又是參加了一堆大會,看了各種大模型紛紛上新,給哥們都逛累了。

結果到了今天,您猜怎麼着,位元組又官宣了他家的新 AI ,也就是他家豆包這次支援可以視訊生成了,而且效果極其強橫。

也就是說,憋了這麼久,這個月底出場的位元組開始上菜了,而且一來就是硬菜。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

口說無憑,直接來給大家看效果:

比如這個官方示範的 “ 紅塵做伴活的潇潇灑灑 ” 場景,這視訊裡多人、複雜表情的表現力可以說相當自然了,雖然是馬丁老爺子的老粉絲,我也隻能說這段權遊味是相當重。

也就是這玩意隻有 10 秒而且慢的一匹,不然真就給它騙過去當成影視片段了。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

還有這段,騎火箭的男人沖向世界最高城禮堂引發大爆炸,這段分鏡,前後鏡頭的畫風一緻性都很連貫;中間那個男人緊閉雙眼緊張赴死的鏡頭也特靈魂,畫面感拉滿了。。。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

不過這玩意你要光看官方視訊吧,好像感受不到它特别牛的地方,有時候這些AI的宣傳資料就跟友善面外包裝一樣,看上去是一回事,拆開以後又是另一回事。

而且視訊生成這個上面, p 圖微調的事也不是沒有過,還有的視訊大模型光放宣傳片,到現在也不讓大家上手用,跟扇貝似的都玩成期貨了。

是以盡管看完這些示範視訊以後,我們覺得豆包可能真有兩下子,但到底貨對不對闆,咱還是得上手試一試才知道。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

這不,那邊釋出會一結束,世超第一時間就薅來了這個 PixelDance (像素跳動)模型的内測,先安排上咱們 AI 測評的傳統保留項目,有請我司老員工火鍋給大夥兒亮個相。

喂給模型一張火鍋的照片,再輸入提示詞 “ 狗狗站起,叼起身邊的娃娃離開畫面 ” 。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

按照我們以往用火鍋測評一些視訊模型的經驗,不出 2 秒,鍋哥的身體和臉就會開始變形,之前甚至還有過把火鍋變成拉布拉多的案例。。

但你猜怎麼着?

這次的視訊,幾乎沒有出現太多畫面抖動、掉幀和閃爍變形的情況。

火鍋起身的動作一氣呵成,仔細看它把兔子玩偶拽過來的瞬間,玩偶耳朵的抖動,腳往下踩的時候墊子上的凹陷,這些細節大夥兒品品,火鍋來了都得直呼:穩啊老哥!

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

如果不是後面幾秒火鍋的毛發紋理露出了破綻,這視訊能打個 9 分吧。

接着,我們又試了讓不少視訊生成模型屢戰屢敗的光影效果。

提示詞 “ 機車飛速行駛在道路上,街景迅速後退 ”

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

街景變化流暢,光線的明暗變化也沒啥違和感,特别是大樓燈光和地闆上的倒影都一一對應上了。

非要挑毛病的話,就是從對向開過來的車,畫面沒太控制好。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

再整個經典的吃播,這回的提示詞是 “ 正對鏡頭的男人張嘴吃下筷子上的食物 ” 。描述相對比較精确,基本就是讓模型指哪打哪。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

而 PixelDance 模型也确實沒讓我們失望,拿筷子的動作很熟練,食物是真吃進了嘴裡,面部也沒有因為咀嚼的動作而變形。即使提示詞裡沒有 cue 到後面的一群人,但模型還是讓大夥兒都動了起來。

就是吧,這嚼東西的動作是不是有點忒刻意了。。。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

其實測到這裡,我們對 PixelDance 模型的水準已經有點底了。但為了讓測試更全面些,咱還是多試幾次。

來看這張世超随手拍下的晚霞,提示詞是 “ 遠處的天空,飛來一條黑色的龍,距離鏡頭越來越近 ” ,稍微複雜了那麼一丢丢。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

後面的天空、一排房子、往鏡頭飛來的黑龍,要素基本齊全,鏡頭還會慢慢仰拍跟随。

不過原本照片左下角應該是橋邊的栅欄,不知道是不是因為太黑,導緻模型沒識别出來,小小變形了一下。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

還有這個編輯部同僚下班整點小麥果汁的視訊,最讓世超震驚的,就是杯子裡 8+1 的效果。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

因為碰杯導緻的晃動、還有手部動作讓液體往右邊傾斜,好家夥,哥們好像真找到一個了解實體規律的模型了。。

而且手臂的屈伸、關節的活動,似乎也是符合人體生理構造的。

不過瑕疵也不是沒有,比如手裡的酒喝着喝着,突然就喂到了隔壁同僚嘴裡,桌面的杯墊不知道咋回事就變成一張紙了。

相信看到這,大夥兒心裡對豆包這個 PixelDance 模型已經有了基本的評判。

雖說還達不到炸裂的程度,但也肯定算得上是第一梯隊了,而且 PixelDance 模型在畫面穩定性、一緻性上,也确實堪稱獨步。

不過對世超來說,其實并不是非常出乎意料。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

主要其實不僅是我們,很多人對豆包在視訊能力上的預期都挺高的。

雖然慢了一丢丢,但背靠視訊行業出身的抖音,再加上對基礎大模型的投入,豆包想依靠這些優勢來追迎頭趕上,實際也是符合大家認知的。

換句話說,豆包做出這個本身就意料之中,更别說人家掏出來的東西還明顯是第一檔。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

不過嘛,位元組在這個時候掏出豆包視訊模型,其實挺及時的,剛好踩在視訊大模型發展的節點上。

光是今年, 6 月份即夢 AI 就在 AIGC 短劇《 三星堆:未來啟示錄 》中亮相了, 7 月 13 日快手也上線了 AIGC 短劇《 山海奇鏡 》;

而在影視圈, AI 制作的聲量也被喊的越來越響,前有 AI 還原 27 歲成龍的《 傳說 》,後有暑期檔的漫改電影《 異人之下 》,這也意味着視訊生成大模型和影視行業某種意義上算雙向奔赴。

東吳證券測算,國内 AI 視訊潛在的行業空間可能達到 5800 億元人民币以上,而在全 AI 模式下,影視劇的制作成本相較于傳統模式,成本能降低超過 95% 。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

但這種趨勢也會帶來新的問題,比如模型訓練需要的素材得更真實,那這些視訊素材可能會有版權和隐私安全的問題。

另一方面,影視級視訊生成模型也需要 AI 廠商本身有影視相關的經驗,比如這次的豆包,就綜合了剪映等專業剪輯和調色軟體的經驗,來做出更接近影視的光影、色彩效果。

其他視訊生成模型如果要在這方面繼續進步,可能也需要和影視行業聯系更加緊密才行。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

總之,豆包這波交出的卷子值得一個高分,但對于視訊模型來說這還遠遠不是終點,期待國産大模型接下來的表現。

順便, Sora 怎麼還不出來吱個聲啊?再不給用黃花菜都要涼了。

豆包這玩意誰研究的呢,這視訊模型真有點攢勁

繼續閱讀