計算機視覺和人類視覺有相似的不足

2021-11-15 23:50:00

深卷積神經網絡浪潮席卷人工智能領域。這些程式在某些方面能比人類做得更好，從面部和物體識别到玩古老的遊戲－－圍棋等。

神經網絡受到了由大腦結構的啟發。機器視覺背後得深卷積神經網絡的結構和大腦負責視覺得結構之間有着驚人的相似之處。其中的一個進化了數百萬年，另一個是僅發展了短短幾十年。但似乎都以同樣的方式工作。

這引發了一個有趣的問題，如果機器視覺和人類視覺用類似的方式工作，他們是否也有同樣的不足？人類和機器是否不能解決同樣的視覺挑戰？

首先是一些背景資訊。在腦中負責視力的神經在有很多層，他們被認為從圖像中提取逐漸的詳細資訊，如運動，形狀，顔色，等等。每一層是一個龐大的神經元網絡。

深卷積神經網絡具有類似的結構。他們也有層的結構，并且每個層由模仿大腦神經元的電路結構組成，神經網絡的術語就是這麼來的。

經過多次試驗，計算機科學家們發現，這些神經網絡層識别圖像最好的時候，每個層逐漸地提取更多資訊。而且當他們看每個層的單獨行為時，他們發現和大腦神經層有顯著的相似性。

為了找到答案，Kheradpisheh 教授和他的合作人員用了四種物件的識别難度各異的圖檔，然後測試人類和深卷積神經網絡的識别能力。

該團隊讓 89 個人每人識别 960 個圖像。研究人員使用每個實驗者反應的速度和準确性作為他們識别圖檔的測量。

該小組還在兩個用于物體識别的最強大的深度卷積網絡進行了等效試驗，一個在加拿大多倫多大學開發，另一個在牛津大學開發。

結果是非常有趣的。 “我們發現，人類和深卷積神經網絡很大程度上每一種變化的相對困難程度詳細，” Kheradpisheh教授說 “3d旋轉是迄今為止最難識别的，其次是放大縮小，然後在平面内旋轉。”

這結果顯示了使用卷積神經網絡來幫助探測人類認知過程的可能性。這項技術或許可以在某些圖像的設計中應用，如空中交通管制，緊急出口，使用救生裝置等的指令等。

繼續閱讀