天天看點

美國一老哥為躲相親,用AI生成女友······

【新智元導讀】國外小夥意外發現DALL-E新妙用,AI生成女友竟成逃避長輩催婚利器!?

自從AI圖檔生成技術爆火以後,各路玩家紛紛親自嘗試。

要不就是用AI做個頭像,要不就是生成一些奇思妙想的畫作。

但要我說,這些點子和今天的主人公Dinda比起來,簡直就是不值一提。

思路打開一點嘛。

美國一老哥為躲相親,用AI生成女友······

用高科技應付長輩?

Dinda是YouTube的一名照片編輯,本着近水樓台先得月的原則,他每天就是和圖檔生成軟體打交道。

最近,Dinda遭遇了全世界大齡青年都會面臨的問題——來自長輩的催婚。

然而,Dinda小哥事業未就,怎能思慮兒女情長?可來自長輩的壓力又不能不管,那就隻剩一條路了——作假騙長輩。

在以前,作假是一件很麻煩的事,要找一個知根知底的異性朋友,約好來個一日情侶。見見家長,把兩邊都糊弄過去就算完。

但是不得不說,風險挺大的。一個大活人,可不能随時都配合着應付來自長輩的檢查。

Dinda想了一個妙招。如果自己能用DALL-E生成一大堆和女朋友合拍的照片,時不時給長輩發過去應付一下,不就行了?

Dinda打開了DALL-E,用圖像修複功能進行操作。該功能允許使用者擦除圖檔上的一部分,然後DALL-E會根據使用者輸入的文字來填補空缺的部分。

于是,Dinda整了點自己的自拍照,然後把身邊的空間擦了一塊,留下一個正好能放下自己假想的女朋友的位置。

接着,他在指令中輸入——一個有女朋友的男人。

然後,啪。

美國一老哥為躲相親,用AI生成女友······
美國一老哥為躲相親,用AI生成女友······

這還不算完,一般和修圖打交道的人都很重視細節。

為了讓生成的圖像更加的逼真,Dinda還把虛拟女友的臉給裁了下來,導出到一個叫GFP-GAN的人工智能照片編輯程式中。

通過這個程式,Dinda可以進行微調,把這張臉做得更逼真。之後再把微調過的圖像放到ps裡,再修一下,最後放回原始圖像。

這樣一來,生成的照片就無可挑剔了。

Dinda表示,「就算我告訴别人這張照片是生成的,90%的人也不知道哪裡是動過的。」

與此同時,他還示範了照片編輯人員如何使用同樣的技術在AI的幫助下把人去掉。

還是一樣的把要去掉的人身上塗抹一下,DALL-E就會生成一個替代背景出來。雖然背景很複雜,但是生成出來的圖檔也還可以。

超凡圖像生成工具!

DALL-E究竟是什麼呢?

我不允許還有人沒聽說過DALL·E。畢竟,現在都出到2代——DALL·E 2了。

美國一老哥為躲相親,用AI生成女友······

這是一款由OpenAI開發的轉化器模型,全部的功能就是把「話」變成「畫」。

具體來說,DALL·E是一個有120億參數版本的GPT-3,被訓練成了使用文本生成圖像的模型。背後的資料集是文本-圖像的對應集。

美國一老哥為躲相親,用AI生成女友······

比如上面這幾張圖,有戴帽子的狗,做實驗的熊貓,還有長得像星雲的狗狗。有沒有覺得,哪怕不合常理,但是并不違和?這就是DALL·E能做到的。說起DALL-E的源頭,其實是研究人員從GPT-3那裡得到了啟發。GPT-3是個用語言生成語言的工具,而圖像GPT則可以用來生成高保真度的圖檔。

研究人員發現,用文本來操控視覺,是可以做到的。也就是這樣,DALL·E成為了一個和GPT-3一樣的轉化器。

在此基礎上,研究人員又開始琢磨同時用文本描述多個物體,生成一張圖。這些物體各自的特征、之間的空間位置關系全都交給文字來描述。

比方說,輸入文本:一隻戴着紅帽子、黃手套,穿着藍襯衫和綠褲子的刺猬。為了正确生成對應的圖檔,DALL·E不僅要正确了解不同衣服和刺猬之間的關系,還不能混淆不同衣服和顔色的對應關系。

這種任務被稱作變量綁定,在文獻中有大量的相關研究。

美國一老哥為躲相親,用AI生成女友······

可以說,DALL·E從1代到2代,就是這麼一個個小任務走過來的。最終能夠呈現的就是一個不錯的文本-圖像轉化器。

T2I究竟有多卷?

要說今年最火的AI便是多模态人工智能崛起。

上半年,文本生成圖像AI模型(T2I)各家争霸。

除了DALL-E,谷歌自家Imagen、Parti,Meta的文本圖像生成工具Make-A-Scene,再到現在大火的Stable Diffusion、谷歌文本3D生成模型DreamFusion都在擴充着文本轉圖像的應用。

先是4月,在GPT-3大模型的加持下,Open AI對畫圖界的扛把子DALL-E進行了2.0版的全面更新。

和上一代相比,可以說,DALL·E 2簡直就是直接從二次元簡筆畫走向超高清大圖:

分辨率提升4倍,從256x256提升到了1024x1024,并且生成圖像的準确率也更高!

5月,谷歌不甘落後推出AI創作神器Imagen,效果奇佳。

僅僅給出一個場景的描述,Imagen就能生成高品質、高分辨率的圖像,無論這種場景在現實世界中是否合乎邏輯。

美國一老哥為躲相親,用AI生成女友······

6月,谷歌再次推出了新一代AI繪畫大師Parti。

要說Imagen和Parti不同地方,便在于采取了不同的政策——自回歸和擴散。

Parti是一個自回歸模型,它的方法首先将一組圖像轉換為一系列代碼條目,然後将給定的文本提示轉換為這些代碼條目并「拼成」一個新圖像。

美國一老哥為躲相親,用AI生成女友······

7月,Meta公布了自家的AI「畫家」——Make-A-Scene,通過文本描述,再加上一張草圖,就能生成你想要的樣子。

最重要的是,構圖上下、左右、大小、形狀等各種元素都由你說了算。

可以看到,DALL-E 2、Imagen等仍然停留在二維創作,無法生成360度無死角的3D模型。

而谷歌釋出的文本3D生成模型DreamFusion便開辟了這一新路線。

訓練後的模型可以在任意角度、任意光照條件、任意三維環境中基于給定的文本提示生成模型。

而且整個過程既不需要3D訓練資料,也無需修改圖像擴散模型,完全依賴預訓練擴散模型作為先驗。

美國一老哥為躲相親,用AI生成女友······

由此可見,在文本轉圖像這塊,各大廠已經卷上了新高度。

甚至有人稱,今年文本轉視訊AI模型暫時還不會到來。

美國一老哥為躲相親,用AI生成女友······

沒想到的是,Meta和谷歌再次打破了這一預言。

T2V已來!

9月底,Meta最先公布了文本一鍵生成視訊模型Make-A-Video。

這一模型厲害到什麼程度?

除了可以把文本變成視訊之外,它也可以把靜态圖變成Gif、把視訊變成視訊。

美國一老哥為躲相親,用AI生成女友······

這一模型釋出後,就連圖靈獎得主Yann LeCun稱,該來的都會來。

美國一老哥為躲相親,用AI生成女友······

比如「馬兒喝水」,生成如下效果:

美國一老哥為躲相親,用AI生成女友······

貓主子拿着遙控器在看電視

美國一老哥為躲相親,用AI生成女友······

簡直AI導演上線。

緊接着10月,谷歌還是文本視訊模型兩連發。

先是Imagen Video,與Meta的Make-A-Video相比最突出一個特點就是「高清」。

它能生成1280*768分辨率、每秒24幀的視訊片段。

美國一老哥為躲相親,用AI生成女友······

與此同時,還有Phenaki模型,讓騎馬的宇航員也動了起來。

這一模型能根據200個詞左右的提示語生成2分鐘以上的長鏡頭,講述一個完整的故事。

美國一老哥為躲相親,用AI生成女友······
美國一老哥為躲相親,用AI生成女友······

在文本轉視訊上,下一個誰會接棒?

繼續閱讀