近日,中國科學院自動化研究所研究員曾毅課題組基于人類和生物視覺系統中廣泛存在的幻覺輪廓現象啟發,提出了一種将機器學習視覺資料集轉換成幻覺輪廓樣本的方法,量化測量了目前的深度學習模型對幻覺輪廓識别能力。實驗結果證明從經典的到最先進的深度神經網絡均難以像人一樣具有較好的幻覺輪廓識别能力。相關研究成果發表在Patterns上。
神經網絡和深度學習模型看似取得成功,在許多給定的視覺任務中在指定方面超過了人類表現。然而,神經網絡的性能仍會随着各種圖像扭曲和損壞而降低。極端的例子是對抗攻擊,通過在圖檔上施加人眼難以察覺的微擾,能夠使神經網絡模型徹底失效。而人類的視覺系統在這些問題上具有高度魯棒性,說明深度學習與生物視覺系統相比存在根本性缺陷。
幻覺輪廓是認知心理學中經典的幻覺現象,指的是在沒有顔色對比度或亮度梯度的情況下,生物視覺系統能夠感覺到一個清晰的邊界(圖1)。這一現象已在人類和多種動物物種中被廣泛發現,包括哺乳動物、鳥類和昆蟲等。獨立進化的視覺系統中普遍存在幻覺輪廓感覺能力,表明它在生物視覺進行中具有基礎和關鍵的作用,也應是人工智能視覺系統所必須具備的能力。交錯光栅幻覺是一個經典的幻覺輪廓現象,位移的光栅會在沒有亮度對比的情況下誘發出虛假的邊緣和形狀。本研究探讨了深度學習對交錯光栅幻覺的識别能力。目前,交錯光栅錯覺被廣泛應用于生理學研究以探索幻覺輪廓的生物視覺處理,而深度學習模型的幻覺輪廓感覺的研究相對較少。研究深度學習模型對幻覺輪廓感覺的魯棒性比圖像幹擾魯棒性更加複雜,主要障礙是幻覺輪廓的樣本有限,多數研究分析的幻覺輪廓依賴于在先前心理學文獻中的手動設計。測試圖檔無法直接與深度學習模型訓練的任務相比對,同時由于數量較少,無法形成一個有相對規模的測試集,較難以機器學習的方式去衡量深度學習模型的幻覺輪廓感覺能力。
曾毅領銜的類腦認知智能研究組,提出了名為交錯光栅扭曲(Abutting Grating Distortion)的圖像幹擾方法,作為量化神經網絡模型幻覺輪廓感覺能力的工具。該方法可直接應用于具有外部輪廓而沒有紋理資訊的剪影圖像,進而系統性地生成大量幻覺輪廓圖像。科研團隊将這一方法應用于手寫數字MNIST資料集和物體的剪影圖像(16-class-ImageNet silhouettes)上,并通過插值增強圖像的清晰度,進而生成對人眼具有更強幻覺效應的測試集圖像,樣例如圖2所示。這些測試圖像允許對一些常見的基于手寫數字MNIST資料集或自然物體圖檔ImageNet訓練的深度學習模型進行直接測試,而無需對模型進行重新訓練。由于不同的參數設定能夠産生不同程度的幻覺效應,本研究面向人類被試者開展測試,用于探讨不同的幹擾參數對人類被試的幻覺輪廓感覺能力的影響。
對于深度學習模型,本研究針對MNIST資料集訓練了全連接配接網絡和卷積網絡,針對經過插值生成的高分辨率MNIST資料集訓練了AlexNet、VGG11(BN)、ResNet18和DenseNet121。對于自然物體的剪影圖像,本研究收集了109種公開可用的預訓練模型,包括TorchVision和timm子產品的ImageNet預訓練模型,從經典的AlexNet、VGGNet、ResNet到最新的ViT和ConvNeXt,以及GitHub上可以公開擷取的資料增強模型如CutMix、AugMix和DeepAugment等模型。在MNIST和高分辨率MNIST上訓練的模型在交錯光栅扭曲測試集上的結果如圖3所示。盡管在原始測試集上這些模型能夠快速達到極高的準确率,在本研究産生的幻覺輪廓交錯光栅扭曲測試集上的效果則較差,大部分情況下正确率收斂于10%,即幾乎沒有識别能力的随機水準。圖4顯示了預訓練模型在交錯光栅扭曲測試集上的準确率。結果表明,多數預訓練模型的表現接近随機,另外可以觀測到當交錯光栅之間的距離較小時,存在一些模型的結果與其他模型的分布有較顯著的差别。本研究發現使用深度增強(DeepAugment)技術訓練的模型相比其他模型能夠顯著增強模型對交錯光栅扭曲資料集的識别。
同時,研究招募了24名人類受試者,評估在不同的參數設定下人類的幻覺輪廓感覺能力以及其對數字和圖像識别的影響。圖5展示了人類在MNIST、高分辨率MNIST和物體輪廓這三個交錯光栅扭曲測試集的子集(每個測試集随機抽取100張)上的測試結果,并對比了之前深度神經網絡在各任務所獲得的最好結果。研究發現,即使是目前最先進的深度學習算法在交錯光栅效應的識别上也與人類水準相距甚遠。
研究對使用深度增強技術訓練的模型淺層的神經元活動進行可視化,同時對比相同結構但并未使用深度增強技術訓練的模型,如圖6所示。研究發現,在無論模型是否使用深度增強技術訓練,均能夠在模型的淺層發現沿着幻覺輪廓的神經元激活現象,但隻有在使用了深度增強技術訓練的模型中發現了類似端點激活神經元(Endstopped Neuron)的活動。端點激活神經元由Hubel和Wiesel最早發現,被認為參與了對幻覺輪廓的早期表征,并廣泛用于幻覺輪廓感覺的神經動力學計算模組化。當線段的端點或拐角位于這些神經元的感受野中心時,它們被最大程度的激活,而将線段沿着感受野延伸則會降低激活程度。除了幻覺輪廓外,端點激活神經元還被廣泛應用于模拟各種視覺感覺現象如運動感覺、曲率檢測以及許多昆蟲的小目标運動探測。研究在由深度增強算法訓練的模型中發現了特定卷積核,其結構與計算神經科學理論所預言的端點激活神經元的空間排布拓撲結構相似,如圖7所示。
綜上,實驗中的所有深度神經網絡模型無論是否被訓練,使用了什麼方式訓練,在maxpool層均産生了神經動力學層面的沿着幻覺輪廓的激活。然而,即使如此,這一神經動力學層面的激活并沒有幫助到深度神經網絡最終在行為學層面識别出幻覺輪廓。而唯一擁有相對好的幻覺輪廓感覺能力的深度增強模型則表現出端點激活效應(endstopping property),這一效應是其他模型沒有表現出的。這揭示了未來突破這個問題重點在于端點激活和幻覺輪廓的關系。
自該研究結合了認知科學和人工智能,提出了将傳統機器視覺資料集轉換成認知科學中的交錯光栅幻覺圖像,首次對大量的公開預訓練神經網絡模型的幻覺輪廓感覺能力進行量化測量,并從神經元動力學角度和行為學兩個角度檢驗深度學習和神經網絡模型對幻覺輪廓的感覺。
曾毅表示,我們認為這項研究最大的特點是從認知科學的角度檢驗和部分重新審視了目前看似成功的人工神經網絡模型,并證明人工神經網絡模型與人腦視覺處理過程仍然存在很大差距。這隻是人工智能與人類認知顯著距離的冰山一角。大腦運作的機理和智能的本質将繼續啟發人工智能,特别是神經網絡的研究。若想從本質上取得突破,人工智能需要借鑒并受自然演化、腦與心智的啟發,建立智能的理論體系,這樣的人工智能才會有長遠的未來。
圖1.心理學中經典的幻覺輪廓圖像。a、幻覺輪廓最著名的例子Kanizsa三角形與其變體Kanizsa正方形;b、Ehrenstein幻覺;c、交錯光栅幻覺(AbuttingGrating Illusion)。
圖2.交錯光栅扭曲方法生成的樣本
圖3.MNIST和高分辨率MNIST測試結果
圖4.預訓練模型測試結果
圖5.人類實驗結果與深度學習測試結果對比
圖6.ResNet50的淺層可視化結果
圖7.類似端點激活神經元的現象和理論預言的拓撲結構
來源:中國科學院自動化研究所
本賬号稿件預設開啟微信“快捷轉載”
轉載請注明出處
其他管道轉載請聯系 [email protected]