天天看點

為什麼AI感覺與人類感覺無法直接比較?

--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨----------

人類級别的表現、人類級别的精度……在開發AI系統的企業中,我們經常會聽到這類表述,其指向範圍則涵蓋人臉識别、物體檢測,乃至問題解答等各個方面。随着機器學習與深度學習的不斷進步,近年來越來越多卓越的産品也開始将AI算法作為自身的實作基礎。

但是,這種比較往往隻考慮到在有限資料集上對深度學習算法進行的測試結果。一旦貿然将關鍵性任務傳遞給AI模型,這種草率的考核标準往往會導緻AI系統的錯誤期望,甚至可能産生危險的後果。

最近一項來自德國各組織及高校的研究,強調了對深度技術在視覺資料處理領域進行性能評估時所面臨的實際挑戰。研究人員們在這篇題為《人與機器的感覺比較:衆所周知的難題》的論文中,着重指出了目前深度神經網絡與人類視覺系統的識别能力比較方法存在的幾個重要問題。

在這項研究中,科學家們進行了一系列實驗,包括深入挖掘深度學習結果的深層内容,并将其與人類視覺系統的功能做出比較。他們的發現提醒我們,即使AI看似擁有與人類相近甚至已經超越人類的視覺識别能力,我們仍然需要以謹慎的态度看待這方面結果。

人類與計算機視覺的複雜性

對于人類感覺能力的基本原理,特别是重制這種感覺效果的無休止探索當中,以深度學習為基礎的計算機視覺技術帶來了最令人稱道的表現。卷積神經網絡(CNN)是計算機視覺深度學習算法中所常用的架構,能夠完成種種傳統軟體根本無法實作的高難度任務。

然而,将神經網絡與人類感覺進行比較,仍是一項巨大的挑戰。一方面是因為我們對人類的視覺系統乃至整個人類大腦還不夠了解,另一方面則是因為深度學習系統本身的複雜運作機制同樣令人難以捉摸。事實上,深度神經網絡的複雜度之高,往往令創造者也對其感到困惑。

近年來,大量研究試圖評估神經網絡的内部工作原理,及其在處理現實情況中表現出的健壯性。德國研究人員們在論文中寫道,“盡管進行了大量研究,但對人類感覺與機器感覺能力進行比較,仍然極度困難。”

在此次研究中,科學家們主要關注三個核心領域,借此評估人類與深度神經網絡究竟如何處理視覺資料。

神經網絡如何感覺輪廓?

第一項測試為輪廓檢測。在此項實驗中,人類與AI參與者需要說出所面對的圖像中是否包含閉合輪廓。其目标在于了解深度學習算法是否掌握了閉合與開放形狀的概念,以及其能夠在各類條件下都順利檢測出符合概念定義的目标。

為什麼AI感覺與人類感覺無法直接比較?

▲你能判斷出,以上哪幅圖像中包含閉合圖形嗎?

研究人員們寫道,“對于人類來說,圖中所示為一個閉合輪廓,其周邊則分布着大量開放輪廓。相比之下,DNN則可能很難檢測到閉合輪廓,因為神經網絡可能會把閉合輪廓與其他圖形視為統一的整體。”

在實驗當中,科學家們使用了ResNet-50,即由微軟公司AI研究人員們開發的一套流行卷積神經網絡。他們使用遷移學習技術,使用14000個閉合與開放輪廓圖像對該AI模型進行了微調。

接下來,他們又通過其他類似的訓練資料(使用不同指向的圖形)進行AI測試。初步發現表明,經過訓練的神經網絡似乎掌握了閉合輪廓的基本概念。即使訓練資料集中僅包含直線圖形,模型也能夠在處理曲線圖形時帶來良好表現。

科學家們寫道,“這些結果表明,我們的模型确實掌握了開放輪廓與閉合輪廓的概念,而且其判斷過程與人類非常相似。”

為什麼AI感覺與人類感覺無法直接比較?

▲即使訓練資料集中僅包含直線圖形,模型也能夠在處理曲線圖形時帶來良好表現。

但進一步調查顯示,某些不會影響到人類判斷的因素卻有可能降低AI模型的判斷準确率。例如,調整線條的顔色與寬度會導緻深度學習模型的準确率驟然下降。而當形狀的尺寸超過特定大小時,模型似乎也難以正确對形狀作出判斷。

為什麼AI感覺與人類感覺無法直接比較?

▲當圖形中包含不同的顔色與粗細線條,且總體尺寸遠大于訓練集圖像時,ResNet-50神經網絡将很難做出準确判斷。

此外,神經網絡對于對抗性幹擾也顯得非常敏感。所謂對抗性幹擾,屬于一類精心設計的變化。人眼雖然無法察覺這些變化,但卻會給機器學習系統的行為帶來巨大影響。

為什麼AI感覺與人類感覺無法直接比較?

▲右側圖像已經進行過對抗性幹擾處理。在人眼看來,兩張圖像沒有任何差別;但對于神經網絡,二者卻已經截然不同。

為了進一步研究AI的決策過程,科學家們使用了特征袋(Bag-of-Feature)網絡,這項技術旨在對深度學習模型決策中所使用的資料位進行定位。分析結果證明,“神經網絡在進行分類标記時,确實會使用某些局部特征,例如具有端點與短邊,作為強依據。”

機器學習能夠對圖像做出推理嗎?

第二項實驗旨在測試深度學習算法在抽象視覺推理中的表現。用于實驗的資料基于合成視覺推理測試(SVRT),AI需要在其中回答一系列關于圖像中不同形狀間關系的問題。測試問題分為找不同(例如,圖像中的兩個形狀是否相同?)以及空間判斷(例如,較小的形狀是否位于較大形狀的中心?)等。人類觀察者能夠輕松解決這些問題。

為什麼AI感覺與人類感覺無法直接比較?

▲SVRT挑戰,要求AI模型解決找不同與空間判斷類型的任務。

在實驗當中,研究人員們使用RESNet-50測試了其在不同大小的訓練資料集中的表現。結果表明,通過28000個樣本進行微調訓練之後的模型,在找不同與空間判斷任務上均表現良好。(之前的實驗,使用的是一套小型神經網絡并配合100萬張樣本圖像)随着研究人員減少訓練示例的數量,AI的性能也開始下滑,而且在找不同任務中的下滑速度更快。

研究人員們寫道,“相較于空間判斷類任務,找不同任務對于訓練樣本的需求量更大。當然,這并不能作為前饋神經網絡與人類視覺系統之間存在系統性差異的證據。”

研究人員們指出,人類視覺系統天然就在接受大量抽象視覺推理任務的訓練。是以,直接比較對于隻能在低資料樣本量下進行學習的深度學習模型并不公平。是以,不能貿然給出人類與AI内部資訊處理方式之間存在差異的結論。

研究人員們寫道,“如果真的從零開始進行訓練,人類視覺系統在這兩項識别任務中,沒準會與表現出ResNet-50類似的情況。”

衡量深度學習的間隙判别

間隙送别可以算是視覺系統當中最有趣的測試之一。以下圖為例,大家能不能猜出完整的圖像呈現的是什麼?

毫無疑問,這是一隻貓。從左上方的局部圖來看,大家應該能夠輕松預測出圖像的内容。換言之,我們人類需要看到一定數量的整體形狀與圖案,才能識别出圖像中的物體。而局部放大得越誇張,失去的特征也就越多,導緻我們越難以區分圖像中的内容。

為什麼AI感覺與人類感覺無法直接比較?

▲根據圖中所包含的特征,小貓圖像中不同部分的局部放大圖,會對人類的感覺産生不同的影響。

深度學習系統的判斷也以特征為基礎,但具體方式卻更加巧妙。神經網絡有時候能夠發現肉眼無法察覺的微小特征,而且即使把局部放得很大,這些特征仍然能夠得到正确檢測。

在最終實驗當中,研究人員們試圖通過逐漸放大圖像,直到AI模型的精度開始顯著下降,借此衡量深度神經網絡的間隙判别。

這項實驗表明,人類的圖像間隙判别與深度神經網絡之間存在很大差異。但研究人員們在其論文中指出,以往關于神經網絡間隙判别的大多數測試,主要基于人類選擇的局部圖。這些局部的選擇,往往有利于人類視覺系統。

在使用“機器選擇”的局部圖對深度學習模型進行測試時,研究人員們發現人類與AI的間隙判别表現基本一緻。

為什麼AI感覺與人類感覺無法直接比較?

▲間隙判别測試能夠評估局部圖對于AI判斷準确率的具體影響。

研究人員們寫道,“這些結果顯示,隻有在完全相同的基礎之上進行人機比較測試,才能避免人為設計給結果造成的偏差。人與機器之間的所有條件、指令與程式都應盡可能接近,借此保證觀察到的所有差異都源自決策政策——而非測試程式中的差異。”

縮小AI與人類智能之間的鴻溝

随着AI系統複雜程度的不斷提升,我們也需要開發出越來越複雜的方法以進行AI測試。這一領域之前的研究表明,大部分用于衡量計算機視覺系統準确率的流行基準測試中存在一定誤導性。德國研究人員們的工作,旨在更好地衡量人工智能表現,并準确量化AI與人類智能之間的真實差異。他們得出的結論,也将為未來的AI研究提供方向。

研究人員們總結道,“人與機器之間的比較性研究,往往受到人類自發解釋思維這一強烈偏見的影響。隻有選擇适當的分析工具并進行廣泛的交叉核查(例如網絡架構的變化、實驗程式的統一、概括性測試、對抗性示例以及受限制的網絡測試等),我們才能對結果做出合了解釋,并正視這種自發性偏見的存在。總而言之,在對人類與機器的感覺能力進行比較時,必須注意不要向其中人為強加任何系統性的偏見。”

為什麼AI感覺與人類感覺無法直接比較?

文章來源:

https://ai.51cto.com/art/202008/624869.htm

文章轉自51cto,本文一切觀點和《機器智能技術》圈子無關

繼續閱讀