天天看點

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

本來又準備睡了...但是好死不死的,睡前又看了一眼幾家AI産品的更新動态...

然後...

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

PIKA在沉寂了3個月後,終于又更新了...

沒有去卷模型,沒有去卷控制,而是繼續奔赴他們1.0最開始所設定的目标:

對話。

PIKA的模型,有一個跟所有的其他AI視訊産品都不同的地方在于。

當你生成人物的時候,大機率會說話,也就是唇形會動起來,模拟人物正在對話的感覺。

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

PIKA認為,這樣的效果,才能更符合真正的"短片"效果,畢竟,一個短片,想要好看,人與人之間的對話那是必不可少的。

對話才有戲,沖突才有張力。

而如果是傳統的Runway等等,做的鏡頭,都是空鏡,對話很多時候都隻能以旁白的形式去做。那樣,觀衆在看片子的時候,沉浸感會大幅降低。

但是去年PIKA1.0上線的時候,其實是并沒有跟語音打通的,意思是說,你隻能跑出一個正在瞎特麼動的嘴,但是沒有聲音。

聲音你需要自己去11Labs或者魔音工坊裡面跑。然後用剪映啥的,把你跑的語音和AI片段拼起來。

但是這就有一個問題是:唇形和發音,是不比對的。

是以PIKA做唇形同步,是絕對的情理之中,他們一定會做,且必做。

這不,就來了。先看一眼PIKA的新預告片吧。

不過PIKA的預告片...你懂的。

還是得自己親自上手試一下。

正好這個唇形同步,也對超級合作者開放了,于是,我就來測一下。

進入PIKA首頁,傳一段視訊或者傳一張圖檔後,你就能看到這麼一個功能:

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

這個就是唇形驅動。

點開以後,就能看到語音制作區域。

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

PIKA也跟11Labs合作了,把11Labs的TTS給拿了過來,上面的區域就可以選擇特定的發音人,然後輸入文字,變成語音。

當然,你也可以上傳你自己的音頻。

我還是習慣自己用11Labs或者魔音工坊跑音頻出來,畢竟那兩個玩意的可用性高一點。

傳上去以後,就可以開始合成了。

我大概跑了幾十個case,從1/2正面,測到1/5正面,從正臉測到側臉,從寫實跑到2D,從圖檔跑到視訊...也算了測了個遍

先看幾個我覺得效果還不錯的例子:

但是還有很多,是Bad case。

PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"
PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"
PIKA正式上線唇形同步 - 給AI視訊注入新的"想象"

整體上我實驗下來,我更建議是先用文/圖生成視訊後,用視訊再去進行唇形同步,而不是直接用圖進行唇形同步。

因為兩者效果大差不差,而用視訊驅動的話,還能實作一些大運鏡或者變動的背景。

PIKA上唇形同步,想象力一定是非常強的,因為不管是Heygen或者奇妙元,能做的都是靜态的照片說話,在效果上,有一定的局限性,因為背景不會動。

比如很久之前我用奇妙元弄的這個特朗普。

而PIKA自身的AI視訊再加上唇形同步,會做出一些以前實作起來非常複雜但是很有戲的效果,能給AI視訊,帶來一些新的想象力。

但是在唇形同步的效果上,坦率的講,跟Heygen和奇妙元相比,還有一定的距離要走。

比如隻支援正臉,側臉一些就會崩。

比如面部有一些遮擋物的時候,就識别出錯。

比如有一些背景人臉的時候,會一起識别出來。

比如唇部經常在抖不夠穩定。

比如有時候唇部會糊。

等等。

但是畢竟PIKA這次的更新,還是Test版本,還沒有向大衆公開。

還有非常大的優化空間。

想想MJ的V1時刻,對吧。

我很期待PIKA後續在唇形同步上的優化,給AI視訊,注入一些新的活力。

不過,我怎麼有一種感覺。

11Labs,這個做AI配音的,反而是最大的赢家呢。。。

繼續閱讀