天天看點

從神經科學到計算機視覺:人類與計算機視覺五十年回顧

如何像人類大腦一樣完成一項視覺任務是複雜的,比如深度感覺、目标跟蹤、邊緣檢測等,而掃描環境和定位是大腦經常做的事情,這些都被人們認為是理所當然的事情。在過去某段時間裡,研究者們可能從來沒有想過建立類似人類大腦處理任務一樣的系統。然而,在過去的50年中,我們已經從神經科學中看似一些小的突破轉向能夠描述圖檔中場景的“電腦”。

從神經科學到計算機視覺:人類與計算機視覺五十年回顧

在下面的視訊中,示範了 V1神經元是如何對待位置和角度的光條做出反應的,當光條移動時,就會有裂紋,這表明你聽到貓的神經元對刺激做出的反應。

<a href="http://v.youku.com/v_show/id_XNDc0MTg0NzA4.html"></a>

通過這個實驗,他們示範了幾種類型的神經元隻有在某些刺激下是如何被激活的,另一個有趣的特征是細胞似乎自然地映射到不同角度,如下圖所示,V1的每一部分都包含一組非常特殊的神經元,這些神經元通常對特定角度的光條作出反應。

從神經科學到計算機視覺:人類與計算機視覺五十年回顧

這些細胞的反應以某種方式結合起來,理論上能夠建立一個自下向上的自然世界形象,也就是說,通過接收許多神經元對各種光條的反應,人類大腦開始繪制出周圍的圖景。

一晃近30年過去了,江山代有才人出,時代屬于Olshausen和David JField二位研究者。兩位研究人員都專注于計算神經科學領域,這個領域主要是研究大腦如何編碼和解碼資訊,并推動了這個領域相關工作的進一步發展。事實上,他們在自己的工作中引用了Hubel和Wiesel的研究成果。此外,他們不隻是注重單一的光條,還拍攝了照片,開始研究如何通過算法識别和編碼圖像内部的特征。

他們的研究表明,在對自然圖像客觀存在的規律進行編碼時,模型的建立更多地側重于稀疏性會使得模型更有效。

使用一個稀疏模型,該模型限制每個基函數清單所需的系數數目,來表示一個圖像中的各種特征,由下式證明:

<b></b>

從神經科學到計算機視覺:人類與計算機視覺五十年回顧
從神經科學到計算機視覺:人類與計算機視覺五十年回顧
從神經科學到計算機視覺:人類與計算機視覺五十年回顧
從神經科學到計算機視覺:人類與計算機視覺五十年回顧

Olshausen等人的模型類似于上圖,如果你對深度學習了解的話,那麼對這個輸出低級特征的矩陣看起來是不是非常熟悉。

在過去的幾年中,很多論文都使用了與上圖非常相似的矩陣,這些矩陣被用作卷積神經網絡的卷積層。可以發現,這應該是模拟單個神經元對視覺刺激的反應方式。

從神經科學到計算機視覺:人類與計算機視覺五十年回顧

此時此刻,利用這些低層次的特征來預測圖像的實際背景不再是Olshausen等人論文中的最後一行中的理論猜想,這在今天變成了現實。

從神經科學到計算機視覺:人類與計算機視覺五十年回顧

從1968年到現在,這是一個漫長的發展過程。本文引用的論文從1968年開始到2015結束都快有50年的時間。然而,從大局來看,神經網絡的發展隻會越來越快,它不僅僅隻是用來識别圖像,還被用于醫學圖像的癌症檢測、預測人類的情感表達、自動駕駛等等各個領域。

接下來的50年裡,計算機視覺的發展前景如何?歡迎廣大讀者留言發表自己的看法。

<b>作者資訊</b>

SeattleDataGuy,軟體工程師,專注于機器學習、深度學習以及資料科學。

Twitter: https://twitter.com/SeattleDataGuy

文章原标題《From Neuroscience To Computer Vision》,作者: SeattleDataGuy,譯者:海棠,審閱:李烽

繼續閱讀