天天看點

深度學習敗于“捷徑”

編譯 | 蔣寶尚、陳大鑫

編輯 | 叢末

深度學習的未來在哪裡?

這一話題已經有過了無數讨論,大部分讨論都承認目前的深度學習還不是真正的智能,必須轉向了解、常識。

深度學習敗于“捷徑”

但是隻看目前AI成功的案例,似乎還無法窺探了解。近日,來自多倫多大學和圖賓根大學的研究人員合作了一篇文章《Shortcut Learning in Deep Neural Networks》,他們将目前深度學習的一些失敗案例歸因為:捷徑,即深度學習在處理任務的時候往往會采用“捷徑”政策,模型在訓練的時侯往往會面臨多個解決方案,而深度學習模型的選擇往往并不是最有效的那個,而是最簡單的那個。

雖然采用“捷徑”政策在表面上是成功的,但是情況稍微改變一下,深度學習就會失敗。這也是通常提到的模型泛化能力差。

除此之外,在論文中,作者還舉了一些采用“捷徑政策”的例子,試圖從“捷徑學習”中找到讓AI模型轉向“了解”的方向。

最後,基于論文内容,作者在網站The Gradient 釋出了一篇文章,詳細闡述了“捷徑政策”對深度學習的影響,AI科技評論對其進行了不改變原意的編譯,請欣賞。

人工智能會取代放射科醫生麼?

有研究人員訓練了一個神經網絡用來乳腺癌分類,其準确率達到了85%。随後,研究人員又綜合了另外三個神經網絡,這時,模型的準确率達到了驚人的99%,足以匹敵有多年經驗的“老”放射科醫師。

隻不過,這裡有個小反轉:研究人員用的不是人工智能神經網絡,而是“全自然”神經網絡,更準确地說,研究人員訓練了四隻鴿子來診斷乳腺癌☺。

深度學習敗于“捷徑”

一群非常聰明的神經網絡?

對于醫學而言,我們從來沒有将未來寄希望于鴿子身上,各大公司也從來沒有投資幾億美元建造鴿子場。顯然,與我們對深度神經網絡的期望相比,我們對鴿子的期望有些相形見绌。

誠然,在許多方面,深度學習确實沒有辜負“炒作”和希望,畢竟,它們在社會、行業和科學領域做出的貢獻是不可否認的,新的AI突破仍然時不時的出現在“媒體頭條”。但是,一些看似互不關聯的失敗案例,一直在緩慢而穩定地出現。

例如,深度學習雖然在物體識别方面取得了超人的表現,但是識别物體中的一些微小的變化(例如背景)有可能導緻識别失敗;深度學習可以為一張圖檔生成看似合理的标題,但是在它不“看”圖檔的情況下,生成的标題也非常合理;深度學習可以準确地識别人臉,但是對于某些少數群體的人臉,模型識别的錯誤率卻比較高;深度學習可以根據履歷做出招聘決定,但是算法的決定往往偏向于選擇男性。

那麼?如何看待AI超人的表現和令人震驚的失敗之間的差距呢?其實,這些失敗案例并不是獨立的現象,它們在某種意義上是互相關聯的:即深度學習在處理任務的時候往往會采用“捷徑”政策。雖然采用政策表面上是成功的,但是情況稍微改變一下,深度學習就會失敗。

更為準确一些,采用“捷徑”的結果可能表現為:模型在标準的基準上表現良好,但是卻無法轉移到具有挑戰性的任務中。這樣的例子有很多,如下圖所示:

深度學習敗于“捷徑”

1

什麼是捷徑?

總的來講,“捷徑”政策并不是什麼新鮮東西,它有許多變體名字,例如covariate shift、反因果學習、資料集偏差、聰明漢斯效應等等。

注:聰明的漢斯是一匹懂得算術和各種驚奇技能的馬,但是它其實并不是真的懂算術,而是靠着訓練員與觀察者無意識下給予的訓練。

具體而言,在機器學習中,訓練模型可能受到資料、模型架構、優化器和目标函數的限制。然而,這些限制所決定的“解決方案”往往不止一個。而用捷徑政策所選擇的正是那些在典型測試集上表現良好,但在其他情況下失敗的解決方案。

深度學習敗于“捷徑”

舉個例子,當在一個簡單的恒星和月亮的資料集上進行模型訓練時,一個标準的三層全連接配接的神經網絡可以很容易對新的示例進行分類,當然,這些示例的資料集在機率上服從獨立同分布。

但是,如果在與訓練集具有不同機率分布的資料集上進行測試時,訓練好的神經網絡仍然用在訓練集中學到的政策對星星進行分類。也即:星星總是顯示在圖像的右上方或在左下方,月亮總是在左上方或者右下方。

此捷徑政策或許在訓練集上可行,但是在測試集上卻不存在。是以,這裡暴露的問題是:在訓練模型對星星進行分類時,位置和形狀都是有效的識别方案,顯然模型選擇了使用位置,而不是物體的形狀來進行分類。

上面這些例子雖然被歸納為對抗性示例、有偏見的機器學習、缺乏領域泛化等等,其實都可以了解為:捷徑學習。

深度學習敗于“捷徑”

翻譯到這兒,小編想到了清華大學高等研究院雙聘教授沈向洋博士,他曾經在多次演講中舉到過的哈士奇的例子:用已經訓練好的神經網絡檢測圖檔中的動物是狼還是哈士奇。在上面6張照片中,左下角的一張被識别錯了。識别錯的原因是:深度神經網絡并非像我們了解的那樣通過動物的外形來辨識的,而是在觀察圖像中有沒有雪,如果有雪,那就是狼。當時沈博士舉這個例子是想說明模型可解釋性的重要性,與今天作者提到的“捷徑”有異曲同工之意。

深度學習敗于“捷徑”

再例如,研究人員開發了一種機器學習分類器,能夠從X光掃描圖檔中檢測肺炎,此分類器在訓練集上表現良好,但是在識别新醫院的病例時,其性能卻出人意料的低。究其原因,該分類器聰明地學會了“從醫院的類型看肺炎”,如上圖所示,通過識别醫院的特定token,然後綜合該醫院的肺炎患病率,模型就能夠有很高的預測準确率。顯然,此分類器沒有“了解”肺炎,而是選擇了最簡單的解決方案,隻檢視醫院token的類型。

2

捷徑學習超越深度學習

通常這樣的失敗被歸為機器學習算法不可信的例子。然而,生物學學習者也有同樣的境遇:在牛津大學的一個實驗室裡,研究人員觀察到老鼠能夠在複雜的迷宮中找到出路。研究人員非常驚訝,因為老鼠的視網膜非常簡單,隻有一些“粗糙”的色覺功能。于是,研究人員進行了深度調查,結果發現老鼠欺騙了研究人員:老鼠們在實驗中根本不使用視覺系統,而是使用氣味識别,即簡單地通過聞迷宮牆壁上彩色塗料的氣味進行分辨。一旦氣味被控制住,老鼠顯著的辨色能力就消失了。

我們從這個實驗得到的結論是:動物在面對實驗任務的時候,采用的并不是人類以為的那種方式。而這種“反人類直覺”的方式正是人類難以想象的地方。

其實,對于動物這種“反人類”的方式還是在研究人員的考慮範圍内的,因為在上述實驗中,小鼠和人類在視覺神經方面的不同,人類早已預料到。

但是在算法層面,人類往往界定人類的性能為算法上限。也就是說,即使人工神經網絡的神經元與生物神經元盡管不同,如果DNN成功地識别出物體,那麼就可以很自然地假設它們能像人類一樣感覺到物體形狀。

是以,在将“物體識别”和“語言了解”這樣的進階能力歸于機器之前,要非常謹慎。因為它們還有一種解釋:捷徑。

3

捷徑學習改變我們衡量進步的方式

從曆史的角度看,一些機器學習的研究主要由基準測試驅動,而基準測試是通過在任務和資料集的固定組合上對算法進行評估,目的是使算法具有可比性。這種基準推動的模式在很短的時間内使機器學習領域取得了巨大的進步。

但這并非沒有缺點,這種模式雖然為研究人員創造了強大的激勵,使他們更專注于開發新的算法,改進現有的基準,但是在激勵他們“了解”目前的算法或基準方面尚有欠缺。這種對了解的忽視也是為什麼“捷徑學習”是深度學習中普遍存在的問題的原因之一。

讓我們看一個比較著名的例子:ImageNet挑戰賽。此挑戰賽于2009年建立,由于它的多樣性和大規模,ImageNet為目前的深度學習革命鋪平了道路。ImageNet資料集和大規模視覺識别挑戰賽的貢獻證明了具有學習權值的深度神經網絡是唯一适合處理這種複雜性的方法(與當時流行的使用手工特征進行圖像分析的方法不同)。在那段時間,ImageNet成為了進步的推動力,模型在ImageNet基準上的表現也成為了計算機視覺領域進步的代名詞。

直到最近幾年,當越來越多的DNN失敗案例出現時,這種情況才開始慢慢改變。所有這些失敗案例背後的一個主要原因是,盡管ImageNet資料集包含很大的規模和種類,但它并不需要真正意義上的目辨別别。

因為在許多情況下,目标的背景,紋理或其他對人類不太明顯的“捷徑”可以很好地被識别。是以如果當識别背景效果比識别場景中的主要目标更容易時,神經網絡通常會學習利用背景用于分類。這種行為往往導緻模型泛化能力太差。

例如下圖,在左側有幾個人類希望模型能夠泛化的目标。對人類而言,無論是手繪黑白的5還是彩色照片上的門牌号5,5都是5。同樣,姿勢、紋理或背景的輕微變形或變化也不會影響到人類對圖像中主要目标的預測。相比之下,神經網絡卻很容易被愚弄。

但是這并不意味着神經網絡完全不能泛化:事實上它們可以很好地泛化,盡管泛化的方向對人類幾乎沒有意義。下圖右側顯示了一些示例,從某種程度上可了解→擾亂圖像隻保留其紋理→完全不知所雲。

深度學習敗于“捷徑”

導緻捷徑學習和模型泛化失敗的關鍵問題是我們對任務的感覺與它實際激勵模型學習的東西之間的差異。那麼我們該如何減輕這一問題,并提供對捷徑學習的其他見解呢?

首先要認識到目前大多數基準測試有一個主要缺點:那就是在訓練中,模型隻對服從獨立同分布的圖像資料進行測試(i.i.d測試)。但是這種類型的測試往往導緻模型有很弱的泛化能力,然而我們想要的是與人類的直覺大體一緻的強大的泛化能力。

為了對泛化能力進行測試,我們需要良好的分布外(out-of-distribution )測試(即o.o.d.測試),這些測試具有明确的分布轉移、明确的預期解決方案,并能揭示模型學習的“捷徑”。

但是測試并不止于此:随着模型越來越好,它們将學會利用更微妙的捷徑,是以我們設想o.o.d.基準也将随着時間的推移朝着越來越強大的測試方向發展。這種類型的“滾動基準”可以確定我們在模型開發過程中不會忘記最初的目标,而是不斷地重新集中精力解決我們實際關心的潛在問題,同時增加我們對模型pipeline和捷徑學習之間互相作用的了解。

4

如何超越捷徑,抵達了解之路?

科學旨在了解。雖然深度學習作為一門工程學科在過去幾年裡取得了巨大的進步,但作為一門科學學科,深度學習在了解機器如何從資料中提取模式的原理和局限性方面仍然落後。

如何減少捷徑學習,進而達到更深入的了解呢?這不僅與機器學習的目前應用領域相關,而且未來可能會有更多與其他學科交叉融合的機會,比如對經濟學而言,如何設計管理激勵措施才能不會因為獎勵無意中的“捷徑”行為而危及長期成功?或對法律而言又該如何創造沒有“漏洞”捷徑機會的法律呢?

然而不幸的是,我們很可能永遠無法完全解決捷徑學習問題。模型的決策總是建立在資訊簡化的基礎上,是以泛化的失敗是可以預料的:通過捷徑學習的失敗是常态,而不是例外。

為了增加我們對捷徑學習的了解,甚至減少這種情況,我們提出以下五點建議:

(1)連接配接點:捷徑學習無處不在

捷徑學習無論是對于生物,還是對于人工神經網絡來說,似乎都是學習系統中普遍存在的一個特征。許多深度學習的問題都是通過捷徑學習聯系在一起的,例如模型利用資料集的捷徑機會,有可能隻選擇幾個預測特征,而沒有仔細考慮所有可用的證據,進而導緻意外的泛化失敗。但是受影響區域之間的“連接配接點”可能會促進成功,這些成功可以在不同的應用領域産生非常有價值的影響。

(2)仔細解釋結果

在機器學習中發現“捷徑”的時候,往往會發現一個看似複雜的資料集存在一個簡單的解決方案。是以,在将 "物體識别 "或 "語言了解 "等進階能力歸于機器之前,我們需要非常謹慎,因為這背後可能往往有一個簡單得多的解釋。

(3)測試o.o.d.泛化

與目前大多數基準測試一樣,在獨立同分布測試資料上評估模型性能是不足以區分預期和非預期(捷徑)解決方案,是以,分布外資料集泛化測試将需要成為“慣例”而不是例外。

(4)了解解決方案容易學習的原因

DNN總是學習最簡單的解決方案,但是如果要了解哪些解決方案是比較容易的,就需要厘清結構(架構)、經驗(訓練資料)、目标(損失函數)和學習(優化)的影響,以及我們該如何對這些因素之間互相作用進行透徹了解。

(5)詢問任務是否應該首先被解決

捷徑的存在意味着不管任務是否得到充分證明,DNN通常都會找到解決方案。例如,人們可能會試圖找到一條捷徑,從敏感的人口統計學(例如膚色或種族)或從性别來評估信用評分。這些歧視和偏見是值得關注的,因為當機器學習應用于定義不清晰或有害的任務時,它可能會強化不正确的假設和有問題的關系。捷徑可以讓這些有問題的任務看上去完全可以被解決。然而,DNNs以高性能處理任務或基準的能力永遠無法證明任務的存在或潛在假設的合理性。是以,在評估一項任務是否可以解決時,我們首先需要問到:它是否應該被解決?如果它真的應該被解決,是否又應該用AI來解決?

捷徑學習解釋了目前機器學習模型和人類智力之間一些最具顯著性的差異,但具有諷刺意味的是,正是這種對“作弊”的偏好讓神經網絡看起來幾乎和人類一樣:誰從來沒有通過記憶考試内容來偷工減料,而不是花時間在真正了解上?誰從來沒有試圖在一項法規中尋找漏洞,而不是堅持法律的精神?也許到最後神經網絡和懶惰的人類沒什麼差別......

本文觀點基于以下論文:

《Shortcut Learning in Deep Neural Networks》

https://arxiv.org/pdf/2004.07780.pdf

Via:https://thegradient.pub/shortcuts-neural-networks-love-to-cheat/