天天看點

危險算法“達利”,開啟“圖檔造假”新高度

危險算法“達利”,開啟“圖檔造假”新高度

值班作者| 宇多田

出品| 虎嗅科技組

頭圖來自OpenAI,圖檔含義為“以牛油果形狀來呈現GPU,數位藝術形式”。

論算法創新,OpenAI好像永遠都不會讓我們失望。

這個世界最牛逼的人工智能實驗室之一,推出過包括GPT2、GPT3等極為強大的自然語言處理模型,威震人工智能圈。而在創始人馬斯克退出,微軟數十億美金重金接手後,他們便開始逐漸向技術商業化之路做出妥協。

但這并沒有影響他們在“無人之境”的奔跑速度。

這一次,我們又在MIT技術評論、紐約時報和VOX等不同領域一流期刊雜志上,看到了OpenAI的名字。這一次與他們名字同時出現的,是大量色彩斑斓到讓人心生愉悅,但卻似真非真、似假非假的圖檔。

以及圖檔背後一個具有緻命創造力和吸引力的新算法。

危險算法“達利”,開啟“圖檔造假”新高度

OpenAI新算法生成的圖像,這些圖像未曾在現實中出現

這個算法的名字叫DALL-E2(達利),據說是為了緻敬2008年的動畫電影《機器人瓦力》和超現實主義畫家薩爾瓦多·達利而取的。這就意味着,算法可能具備了一些超出人類想像的能力。

簡單來說,它是一個可以将文本描述轉換為圖像的系統——隻要寫下你想看到的東西,達利就會為你繪制出來,非常像一個二維版的3D列印機。

舉個例子,當你在達利搜尋欄裡,輸入“長得像牛油果的茶壺”,它會在大約5秒時間内,生成多達10張與“牛油果茶壺”詞義相符的圖檔。

危險算法“達利”,開啟“圖檔造假”新高度

挺萌的…GIF來自紐約時報

結果顯然100%扣題。而且因為分辨率很高,是以這些圖像看起來更像是真實的照片。

但這個例子其實非常“現實主義”,因為牛油果形狀的茶壺,我們極有可能在創意商店中買到。但是“會下棋的貓”呢?OpenAI工程師Alex Nichol在輸入“會下棋的貓”後,生成了這樣一張圖檔:

危險算法“達利”,開啟“圖檔造假”新高度

老夫的少女心……看起來毫無違和感

還有難度更高的文字描述詞,譬如“一個雨夜,一個超級英雄栖息在城市上空,風格就像一本漫畫書”,輸出結果沒有一處不符合詞義:

危險算法“達利”,開啟“圖檔造假”新高度

而輸入“ 位于城市中心的巴比倫空中花園,達利畫風”,輸出的藝術效果簡直妙不可言:

危險算法“達利”,開啟“圖檔造假”新高度

此外,達利系統還輸出了很多文字描述複雜,但輸出結果不僅精準,而且堪稱藝術品的圖檔,都被放在了 OpenAI 的instergram上:

危險算法“達利”,開啟“圖檔造假”新高度

想想我們平時在百度裡搜圖時出來的垃圾結果,就隐約能明白達利的強大創造力意味着什麼。

本質上,與很多人工智能算法模型一樣,DALL-E就是一個模拟了大腦神經元網絡的數學系統,它自然需要分析大量資料來學習技能。

譬如剛才講的牛油果茶壺,在識别出一顆牛油果之前,OpenAI說,達利至少觀摩了上千個大大小小、奇形怪狀的牛油果。而更重要的是,它還需要在圖像與描述圖像的文字之間,找到一種關系模式。

危險算法“達利”,開啟“圖檔造假”新高度

來自OpenAI的論文

事實上,這個系統引發人工智能研究圈讨論的關鍵之一,便在于它能夠同時處理文字語言與圖像,并且在自然語言了解與計算機視覺之間建構起更加緊密的關系。而此前的研究,的确還沒有到達這樣的水準。

《MIT技術評論》給出的評價,一定程度上代表了學術領域對達利系統的部分态度:“雖然這些被制作的圖像既超現實又呈現卡通化,但它們證明了,人工智能已經學會‘世界被組合在一起的基礎邏輯’。這些圖像實在是令人驚歎。”

危險算法“達利”,開啟“圖檔造假”新高度

這個圖像輸入Dalle的搜尋文字是:“一輛未來汽車在霧中滑行”

不過,從Dalle2這個名字就能看出,OpenAI曾在此前推出過向大衆開放的第一代版本,然而我在試用後,嚴重懷疑第一代達利,可能僅僅裝了一個印象派畫風濾鏡。

譬如,當我輸入“馬斯克是個‘吹牛逼大王’”,出來的都是臉部扭曲的馬斯克大頭照:

危險算法“達利”,開啟“圖檔造假”新高度

歪臉的馬斯克

但短短2年,第二代達利就取得了驚人的進步,而這取決于算法模型的重新設計,因為初代版本或多或少是GPT-3的一種擴充。

當然,新版本也有不少問題。

譬如,輸入“把艾菲爾鐵塔送上月球”後,出現的圖像僅僅是一張“夜晚下的埃菲爾鐵塔”。是以,OpenAI的科學家們還在輸入更多資料改進它。另外,仔細觀察這些生成的圖像,你會發現一些“弱點”:

像很多剛“出生”的算法模型一樣,達利在描繪“手腳”等細節上仍然非常吃力。很明顯,宇航員的手腳,以及貓的爪子都有一點不自然。

危險算法“達利”,開啟“圖檔造假”新高度

輸入文字:騎着馬的宇航員。很明顯手腳細節有問題

但無論如何,達利都是個值得讓我們贊一聲“牛逼”的技術進步。甚至于,由于這波能力表現突出,它引發的恐慌,不亞于此前文字生成模型GPT3帶來的文字造假争議。

紐約時報援引亞利桑那州立大學計算機科學教授蘇巴拉奧的話直言不諱:“你可以用它來做好事,但你肯定可以用它來做更加瘋狂的事情,包括深度僞造的照片和視訊。”

沒錯,雖然工程師展示出的這些作品,看起來藝術創造水準非凡,但與所有人工智能系統的典型特征相同,它一定會從訓練自己的大量資料屬性中繼承某種“偏見”。

譬如,當你輸入“律師”,系統結果都是這樣的:

危險算法“達利”,開啟“圖檔造假”新高度

所有律師都是男性,且大多看起來是白人

算法的性别與人種偏見問題,自誕生之日便在歐美地區争議多年,迄今都無法解決,甚至有愈演愈烈之勢。這也是導緻包括亞馬遜、谷歌等公司無法大規模部署人臉識别系統的關鍵原因之一。

另外,試想一下,當初在“換頭”算法盛行,外網網友喜歡把特朗普等上司人的頭像移植到某個搞笑電視劇裡,引發捧腹大笑;而達利的出現,是否有能力讓我們不費吹灰之力,便可以做到任意輸出大量政治造假照片。

甚至于,當輸入“某某吸毒、打架鬥毆”這類顯然足以陷害他人,改變他人命運的關鍵詞,如果都會出現毫無違和感的圖像,那麼會帶來什麼後果?

與工程師對技術的癡迷不同,紐約時報的讀者們對達利算法的評價極為犀利,思考深度不可小觑,甚至可以說直擊人類的靈魂:

人們将不得不對他們在網上看到的幾乎所有東西持懷疑态度。

這個系統的出現,會讓“天平”向一個更加奇異與危險的世界傾斜。

人類還沒有在哲學上發展到能夠負責任地使用技術的程度。就像加密貨币一樣,騙子似乎也總是被技術那“厭惡人類”的一面所吸引。

我很高興這個工具沒有被公開。如果這件事公開了,(我)最明智的做法是完全脫離網絡和電視,避免與那些想告訴你自己在網絡上看到什麼東西的人有任何接觸。如果未來全息影像成為主流,那麼我們将為子孫後代創造一個反烏托邦式的地獄。

正如社交媒體與技術革命一樣,矽谷的能力遠遠超過人們的批判性思維。我們現在生活在一個教育被忽視了幾十年的世界裡,人們分析事物的能力已經讓位于“應用公式”。與此同時,矽谷技術的發展正在提供不可抗拒的便利。因為我們很多人都忙于生存,是以我們支援這種便利,甚至沒有時間來反思它的影響。是以,我們現在不再是揮舞錘子的人,而是大多數的釘子。

危險算法“達利”,開啟“圖檔造假”新高度

輸入“空乘工作者”,出現的都是女性乘務員形象

我認為,關于人工智能的普及已經足有七八年,而大衆之如今仍然會心生恐懼,是因為體驗過被監控和資料之網牢牢困住的感覺後,即便驚喜于達利系統的強大創造力,也早就超越了“事不關己、高高挂起”的心态:

不知道這些曾經的笑話,什麼時候會落到自己頭上。

正是鑒于西方社會這種對達利又驚又恐的态度,OpenAI已經反複公開強調,這絕對不是一個産品,自己僅僅是想了解算法的能力與局限性。

他們保證會嚴格控制達利的使用權,隻會向一小部分經過嚴格審查的測試人員開放;未來隻會在藝術家工具層面做一些有限制的嘗試。

比較有趣的是,他們還給達利設定了一個“反欺淩過濾器”。比如,輸入“一頭長着羊頭的豬”,系統就拒絕輸出。因為OpenAI解釋,“豬”和“羊”同時出現應該觸犯了過濾器設定的禁令。

另外,關于偏見問題,為了減少對女性的傷害,OpenAI希望過濾掉所有訓練資料中的“性别内容”。但他們發現,當他們嘗試過濾掉這些資訊時,達利系統産生的女性圖像變少了。

因為這又觸及了另一種現實世界中職場存在的局限性(有些産業和職位,女性就是很少),因而導緻了另一種對女性的傷害: 抹殺。

危險算法“達利”,開啟“圖檔造假”新高度

輸入文字:熊貓寶寶在銀河盡頭彈鋼琴。OpenAI的公開圖檔裡,大部分都是動物,盡量避免男女性别帶來的争議

但是,世界上聰明的程式員還有很多很多,可能很快就會有其他企業和國家能能夠開發出類似的技術。畢竟,人類追求技術創新的動機非常多樣化,而利益是其中最大的推動力之一。而他們本身的人類道德感是否值得信任,這就很難說了,因為很多動機與造福人類顯然是相悖離的。

但我們又不能是以一棒子打死,全面限制人類追求算法創新的速度。那麼,就應該思考這樣一個問題:

如何才能真正改變所有算法創新參與者的潛在激勵結構?

但對我個人來說,隻能說對技術的應用相對悲觀,或者說謹慎樂觀:

因為我從來不會對技術失望,但我也從來不輕易相信人性。

繼續閱讀