天天看點

困擾人工智能發展的,是最簡單的常識問題

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:在以深度學習為首的機器學習的突破下,AI最近一些年取得了長足的進展,超級精确的計算機圖像識别,令圍棋世界冠軍甘拜下風的超級智能,令很多人都發出了AI要超越人類的驚呼。但是有一個領域盡管已經發展了幾十年,卻依然基本裹足不前:常識。哪怕最聰明的AI,遇到常識就變得異常的愚蠢。這個問題不解決,AI就無從飛躍為AGI(一般人工智能)。但現在一個叫做COMET的新AI,通過把寫死的知識庫與深度學習結合到一起,讓AI在“認識”常識上邁出了一小步。JOHN PAVLUS在《大西洋月刊》 聚焦了這個問題,原文标題是:The Easy Questions That Stump Computers

困擾人工智能發展的,是最簡單的常識問題

木頭 + 火柴 = ?

劃重點:
  • 最先進的神經網絡遇到常識也像個蠢蛋
  • 常識是由隐性資訊組成,被稱為“人工智能的暗物質”
  • 早期把常識轉化為邏輯的努力取得的成功有限
  • COMET利用了神經語言模組化的最新進展來擴充GOFAI風格的符号推理,這是一種旨在給計算機灌輸對書面語言統計性“了解”的深度學習
  • 但統計性“了解”不是了解,常識的的覺察比定義要容易
  • 定義常識需要資訊更豐富的模式

再聰明的AI也不懂常識

去年10月的一個晚上,人工智能研究人員Gary Marcus正在自己的iPhone上面給自己找點樂子:讓最先進的神經網絡看上去像個蠢蛋。Marcus的目标是一個叫做GPT-2的深度學習網絡,這個網絡最近以僅憑一兩句話的提示就能生成聽起來像模像樣的短文這種超強能力而著稱。《衛報》的記者給它一段有關英國脫歐的報道文字時,GPT-2就能寫下了一整段新聞報紙式的文字,還附上了令人信服的政治和地理參考文獻。

對人工智能的炒作持質疑态度的知名批評家Marcus給這個神經網絡來了一次突擊考試。他向GPT-2輸入了如下内容:

如果你把引火物和木頭堆進壁爐,然後扔些火柴進去,會發生什麼?一般來說你這是在…

毫無疑問,一個足以給《紐約客》做出貢獻的系統完成句子填充應該不會遇到麻煩,“生火”嘛。但GPT-2的回答卻是“嘔吐”。在第二次測試中,它認為把火柴扔進壁爐的木頭堆會打開“一個到處都是人的IRC頻道”。

Marcus對此并不感到驚訝。常識推理——用關于世界的基本知識進行對世界的推理的能力,比如“火柴”加“木頭”一般等于“生火”的事實,數十年來一直在抵抗着AI研究人員的努力。Marcus把對AI突擊考試的結果釋出到了自己Twitter賬号上,并加上了自己的評論:“笑死我了”(LMAO,網際網路語)。神經網絡的語言模仿能力也許令人印象深刻,但顯然缺乏基本常識。

幾分鐘後, Yejin Choi看到了Marcus的那條刻薄的tweet。這個時機頗為尴尬。不到一小時之後,Choi就要在一次著名的AI會議上就她的最新研究項目發表演講:一個昵稱叫COMET的系統。而這個系統就是用早期版本的GPT-2來進行常識推理的。

很快,Choi(西雅圖Allen Institute for AI進階研究經理,自稱“其實心底下是個冒險家”)也給了COMET一條跟Marcus一樣的線索(就是修改了一下措辭,好比對COMET的輸入格式):

Gary堆上引火物和木頭,然後扔了一些火柴進去。

COMET生成了10條有關Gary為什麼要扔火柴的推斷。這些推斷并不是都說的通,但前兩條回答的确是:他“想生火”。于是Choi在推特上面回複了Marcus,然後大步流星走向講台,并在演講中把她的結果引用了進來,說:“結果似乎挺合适的。”

常識被稱為“人工智能的暗物質”,既不可或缺,又難以捉摸。這是因為常識是由隐性資訊組成的,也就是人類自動用來了解世界的廣泛(并廣泛共享)的不成文的假設和經驗法則。比方說,不妨考慮以下情形:

一個男人光顧了一家餐館。他點了一塊牛排。然後留下一大筆小費。

如果問你他吃了什麼,你給出牛排的答案會毫不費力。但是,關于那個場景的描述當中并沒有提到這個人吃了什麼。德克薩斯大學奧斯汀分校人工智能實驗室主任Ray Mooney在給我做同樣的測試後指出這一點時,我一開始并不相信他。他說:“大家甚至都沒意識到自己正在這麼做。” 常識讓我們可以體會言外之意。大家在點菜之後和留下小費之間那段時間一般就是在參觀吃東西,這一點我們是不需要明确說出來的。

但計算機需要。這也就難怪常識推理會在1958年(AI這個學科剛誕生不久)成為人工智能研究的一個主要關切(題為“常識程式設計”的一篇論文)。自1980年代以來一直研究人工智能領域常識問題的紐約大學計算機科學家Ernest Davis說:“總的來說,如果沒有這個東西,你就沒法進行自然語言了解、視覺或計劃之類的事情。”

盡管如此,這方面的進展仍然非常緩慢。一開始,研究人員試圖将常識轉化為計算機的語言:邏輯。他們推測,如果可以寫下人類常識的所有不成文的規則的話,計算機應該就能夠以跟處理算術相同的方式來用嘗試進行推理。這種符号法後來被稱為“有效的老式人工智能”(或GOFAI),雖然取得了一些早期成功,但這種人工的辦法擴充性很差。紐西蘭奧克蘭大學的AI研究員Michael Witbrock 表示:“原則上而言,邏輯形式主義可以友善地表示出來的知識量是有限的。事實證明,這是一項真正壓倒性的任務。”

用神經網絡進行深度學習似乎提供了另一種選擇。這些AI系統旨在模拟生物大腦當中神經元互相連接配接的層,可以在不需要程式員事先指定的情況下學習模式。在過去十年的時間裡,越來越多的複雜的神經網絡,在經過大量資料訓練之後,已經徹底改變了計算機視覺和自然語言處理技術。神經網絡現在可以上路開汽車,可以在國際象棋和圍棋比賽中擊敗世界一流的棋手,盡管它們表現出了這種種的靈活性以及看似強大的智力,但是,這些系統仍然因為在常識方面的愚蠢(有時候是緻命的)而聲名狼藉。Davis說:“常識的擷取、表現以及推理,這些都很困難。”

現在,Choi和她的合作者已經把這些方法結合在了一起。COMET(“常識轉換器(commonsense transformers)”的縮寫)利用了神經語言模組化的最新進展來擴充GOFAI風格的符号推理,這是一種旨在給計算機灌輸對書面語言統計性“了解”的深度學習。COMET的工作原理是把常識推理重新想象為對新輸入生成看似可信的(如果不是完美的話)響應的過程,而不是像過去那樣,通過咨詢龐大的、類似百科全書的資料庫來做出無懈可擊的推論。

Mooney已經在自己的研究中用上COMET,他說:“它試圖把兩種截然不同的人工智能方法融合在一起。” 過去幾十年一直在用符号主義研究這個問題的帕洛阿爾托研究中心常識推理和AI專家Leora Morgenstern說:“這是一個有趣的新方向,說:‘嘿,看,那兒有一條中間路線。’”,他認為,COMET背後的想法可以幫助推動這個領域的發展。她說:“我對Yejin 所做的事情感到非常興奮的原因之一是,我認為這會為常識推理社群注入新的生命。深度學習的确非常強大—讓我們去弄清楚如何利用它去征服常識。”

難以定義的常識

察覺常識比定義常識容易。根據Witbrock 的說法,常識一詞既可以表示一種知識,也可以表示對這種知識的一種态度。他說:“我會說常識是廣泛可重用的,不屬于特定學科領域所特有的背景知識。常識是你應該擁有的知識。” 比方說,大家到飯店是去吃飯,而不僅僅是點菜和付款,或者網一堆木頭上扔火柴表明正在嘗試生火。

大多數常識性知識都是隐性的,這使得常識很難明确表示出來。Morgenstern說:“常識是你在2歲或4歲的時候所學的内容,是那些書上從來都沒寫出來的知識”。不過,早期的AI研究人員認為填補鴻溝是有可能的。布朗大學計算機科學家Ellie Pavlick 說:“就像是,‘讓我們寫下有關這個世界的所有事實。可以肯定那隻有幾百萬。”傳統上,建構這種所謂的知識庫的資源,是任何實作常識推理自動化的方法的第一步。

建立起足夠多的明顯事實比聽起來要難。有個叫做Cyc項目就是做常識推理的,這個項目從1984年就開始做了,目标是對表示400篇百科全書文章所必需的隐性常識知識進行編碼。項目一直沒停過。三十多年後,Cyc(用密集的,定制設計的邏輯符号編碼)的知識庫包含了“數百萬個集合和概念,以及超過2500萬個斷言”。然而, Davis和Marcus在2015年發表的一篇評論文章中指出:“Cyc 對人工智能研究的影響相對較小。” 随後為知識庫編寫條目,或通過用機器學習挖掘文檔來建立知識庫的嘗試,均未能破解常識推理問題。

為什麼?Pavlick 解釋說,一方面,是因為“每種情況總是會有例外。如果我聽到類似“現在正下雨”之類的陳述,我可以推斷出如果我到外面去,我會被淋濕,但如果[我]在某個東西的下面,就不會。但其他的例外就很難預測了。諸如Cyc之類的知識庫可能包含許多有關某人在餐館點菜時通常發生的情況的陳述。但是,在這種情況下,可能發生的罕見或者不尋常的事件潛在的清單是列不完的,比方說不付錢就走了,或者當時是在進行大胃王比賽呢?Choi說:“這個範圍是覆寫不完的。是以,純粹基于符号知識的方法注定是要失敗的。”

哪怕有可能建立起比以前任何嘗試要大100乃至1000倍的知識庫,這種系統仍然會陷入另一個智力缺陷:所謂的脆性問題。那是因為,就像自然語言一樣,常識從根本上而言仍然是模糊的。當伺服器問用餐者,“你還在緻力于(working on)那個嗎?”我們了解它的意思是說“你還在吃盤子上的東西嗎?” 但是,如果伺服器向正在準備一份逾期的訂單的流水線廚師詢問同樣的問題時,那就完全是另一個意思了。餐館是大家“做”東西的地方嗎?“吃”(eating)和“做”(working)是不同的概念嗎?

一切都要看情況。看情況就是脆性問題:隻要那些概念性邊界得到尊重,在知識庫裡明确定義的關系就可以促進強大而可靠的推理能力。但是,無論這些符号系統再怎麼多樣和豐富,都不可避免會出現無法捕捉人類常識推理當中經常發生的模棱兩可和聯想重合。Pavlick 說“就符号使用方式而言,我們其實是很靈活的。”

Choi一開始沒有去碰常識,因為她想同假想的敵人作戰。2018年當她加入Allen Institute時,她的“直覺”認為神經網絡是可以在知識庫自身停滞不前的情況下取得新的進步的。她隻是不知道該怎麼做。但她也不想完全摒棄以前的符号法。她說:“過去的所有研究都是建立在缺乏資料(或缺乏計算資源)的基礎之上的。是以我想在我正确嘗試了不同的路線之前,我會保留自己的判斷。”

Choi和她的同僚們以開放的态度開始建立自己的知識庫,她們把它叫做Atomic(“機器常識地圖集atlas of machine commonsense”的縮寫)。Choi說:“基本上,我想寫一本神經網絡的教科書,教它們更快地了解這個世界。然後那些事情就同時發生了——當我們有了這些知識[基礎]時,GPT-2也誕生了。”

這個神經網絡是在2019年2月的時候釋出的,那隻是一波“預訓練語言模型”浪潮當中的一個,這個模型開始革新了計算機處理自然語言的方式。這些系統裡面并不包含整理得當的語言符号或規則。取而代之的是,他們對神經網絡當中數百萬或者數十億個參數用統計的方式進行語言的表征。這種做法令此類系統難以解釋,但也讓這種系統很健壯:它們可以基于有噪音的或者不明确的輸入生成預測而不會受阻。在經過微調來執行特定任務(比方說回答書面問題或對文字進行釋義)時,語言模型甚至似乎至少了解了一部分閱讀的内容。

Choi現在看到了一種把自己對神經網絡和常識的直覺付諸實踐的辦法。

如果用常識性知識庫(例如Atomic)對語言模型進行額外訓練的話,會發生什麼情況?就像GPT-2學會了如何自動生成貌似可信的新聞報道一樣,神經網絡能不能學會自己用貌似可信的常識性推論來填補Atomic的空白?Choi說:“以前居然沒人嘗試過這個,這簡直太奇怪了。好像幾乎沒人在乎這個,因為他們太過确定這永遠也行不通了。”

當Choi(以及她的合作者Bosselut、Rashkin 、Maarten Sap、、Malaviya 及Asli Celikyilmaz )用Atomic編碼的常識性知識對一個神經語言模型進行調整後,COMET就誕生了。這個模型把符号推理跟神經網絡進行了融合,試圖同時解決覆寫和脆性的問題。任何人都可以用日常語言給COMET輸入提示。如果事件已經在系統的常識知識庫中表示過(比方說,在餐廳點菜一般都會涉及到吃菜),COMET就可以簡單地推斷出這一預先存在的資訊。如果沒有,神經語言模型就會做出自己認為最有可能的推測。

這些猜測好得出奇。由人組成的評估團隊認為,平均而言,COMET産生的新鮮響應(也就是來自神經網絡而不是靠現有知識的推斷)當中的77.5%是“看似可信的”。這比人的水準要低10個百分點。(評估人員發現由人編撰的知識庫條目86%是貌似可信的。)當COMET收到的提示是“X這個人給Y這個人一些藥片”時,它猜到X是想幫忙; 當被告知“X殺了Y的妻子”時,COMET認為X會想要隐藏屍體。

這些例子說明了COMET是怎麼去處理超出其植入常識“覆寫”範圍的輸入的。但是脆性問題呢?去年年底在西雅圖實驗室采訪Choi時,我用我女兒的話給COMET輸入了一條提示:“爸爸去幹活了。”(Daddy goed to work)

Choi皺起了眉頭。她說:“這可能有點難搞。” 但是,COMET泰然自若,認為“爸爸”是想去“賺錢”,“做自己的工作”以及“拿到薪水”,是以被視為“勤奮”,“有上進心”以及“盡職”;其結果是,其他人會感到“驕傲”、“感激”,而且會覺得——鑒于這是幼稚園小孩說的話——它還給出了一個有趣的回應——“很煩”。(當我是去上班而不是陪她玩時,我女兒的确表達過這種情感。)Choi說:“Cyc肯定回答不了。除非有人把goed是‘去’的意思寫死進去,我們從來沒這麼做過。”

梯子再好也不能上天攬月

關于AI所取得的進展,Gary Marcus喜歡用一個比方來打趣:“僅僅因為你可以造出更好的梯子,并不意味着你就可以造出可以登月的梯子。” 在他和其他人看來,COMET的做法存在着深度學習的一個根本的限制:“ 統計≠ 了解。” Marcus在電子郵件中回複說: “可以看出,[COMET]在猜測一句話可能會喚出哪些參數方面做得還不錯,但它沒辦法用一緻的方式去做到這一點。”就像梯子不管多高也沒辦法登月一樣,神經網絡不管如何再怎麼擅長模仿語言模式,也沒法真正“知道”往木頭堆扔火柴一般就會生火起來。

令人吃驚的是,Choi對此也表示同意。她承認,COMET的訓練資料“依賴表面模式”,而不是對概念的實際了解,來産生響應。她說:“但是,它的确很擅長表面模式這一點是件好事。隻是我們必須為它提供更多資訊豐富的表面模式。”

這些資訊更為豐富的模式可能會是什麼樣的?一些研究人員認為,為了給計算機灌輸真正的常識,我們需要利用語言本身以外的現象,比方說視覺感覺或展現感覺。這些更直接的第一人稱表示可能是常識的基礎,而語言充當的是第二層。

目前正在研究如何通過在虛拟現實中與AI系統進行互動來教AI系統常識的Pavlick說:“哪怕我生活在一個沒有其他人可以與之交談的世界裡面,我仍然可以具備一些常識—我仍然能了解這個世界是怎麼運轉的,并且對我應該會看到什麼和不應該看到什麼有預期。” 在她看來,COMET代表着“的确令人振奮的進展,但這個系統缺失了實際的參照。蘋果這個詞不是蘋果本身。這種含義必須以某種形式存在,而不是通過語言本身。”

Salesforce 的進階研究科學家Nazneen Rajani 也在追求類似的目标,但她認為神經語言模型的全部潛力遠還沒得到充分挖掘。她正在調查這些模型能不能學會推理牽涉到基本實體學的常識性場景,比方說把裝有球的罐子翻倒通常會導緻球掉落這一事實。Rajani說:“現實世界的确很複雜。但是自然語言就像是現實世界運作方式的低維代理。” 當然,可以教神經網絡根據文本提示預測下一個單詞是什麼,但這他們不應該被局限在這些。“它們可以學習更複雜的東西。”

Choi和她的同僚們還在研究用标記過的視覺場景而不是文本來增強COMET的方法。Choi說:“我們從電影或電視節目裡面取出了所有這些圖像,然後發生了一些有趣的事情。注釋看起來很棒;這個模型的預測看起來令人興奮。”

我問Choi,COMET的方法(把越來越好的神經網絡跟改進的常識性知識庫相結合)是不是在本質上仍屬于造登月的梯子。她承認,她的夢想是有一個不需要人工監督就能從知識庫中學習的神經網絡,就像GPT-2這樣的語言模型已經通過攝取大量原始文本來學習的方式一樣。

但是就像溫斯頓·丘吉爾曾經嘲笑過那樣,“民主是最差的一種政治制度,除了所有那些其他被實驗過的政治制度之外。”Choi認為,COMET是有缺陷,但是是成為一樁“公平交易”的有希望的方案。哪怕這些神經網絡沒法上天攬月,她仍認為它們是取得進展的唯一途徑。她說:“如果沒有這些,我們就去不了任何地方。” “光有知識庫,我們什麼都做不了。能夠到天空中飛翔的其實是COMET。”

譯者:boxi。

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-06-04

本文作者:神譯局

本文來自:“

36kr

”,了解相關資訊可以關注“