天天看點

微軟的神經網絡:深度學習能走得「更深」

計算機視覺現已走進了我們的日常生活。facebook可以識别你上傳到的照片中的人臉。google photos應用可以識别狗、生日派對、墓地等多種事物和場景,這種能力能幫你檢索相冊中的照片。twitter則可以在沒有人類監管者的情況下識别鑒定色情圖檔。

以上的「視覺」能力都源于人工智能一個高效率的被稱為「深度學習」的分支。盡管這項技術在近幾年得到了人們的大肆吹捧,但微軟研究院的一項新實驗卻顯示這一切才剛剛開始;深度學習可以走得「更深」。

計算機視覺的革命已經進行了相當長的時間。2012年時我們終于迎來了一個關鍵轉折點,來自多倫多大學的人工智能研究者赢得了一個名為imagenet的比賽。imagenet是一個機器圖像識别比賽——看誰的技術能更好更準确地識别貓、汽車或雲朵。2012年,多倫多大學的團隊(包含研究者alex krizhevsky和geoff hinton教授)憑借深度神經網絡登頂大賽冠軍。這項技術可以通過檢查大量圖檔的内容而學習識别圖像,而不再像之前那樣通過人類費力地手工編碼來實作。

多倫多大學的勝利昭示了深度學習的未來。自那時起,網際網路巨頭(包括facebook、谷歌、twitter和微軟)都開始使用類似的技術打造能與人類匹敵甚至超越人類的計算機視覺系統。微軟研究部門負責人peter lee說:「我們不能說我們的系統能像人類一樣『看見』東西,但我們可以說在非常具體、範圍窄的任務中,我們可以通過學習做到和人類一樣好。」

粗略地說,神經網絡使用硬體和軟體搭建出了類似于人類的神經元網絡。這個想法可以追溯到上世紀80年代,但直到2012年,krizhevsky和hinton才開始發明在圖形處理器(gpu)上運作神經網絡的技術。gpu原本是為遊戲和其它高性能圖像軟體設計的專用處理晶片,但事實證明,它們也非常适合驅動神經網絡的那些數學。谷歌、facebook、twitter、微軟和其它許多公司現在都使用gpu驅動的人工智能來處理圖像識别等多種任務,包括網際網路搜尋和安全應用等。krizhevsky和hinton加入了谷歌。

現在,imagenet最新赢家又指出了計算機視覺發展的下一步可能——更大範圍的人工智能。上個月,來自微軟的一個研究團隊使用一種被稱為「深度殘留網絡」(deep residual network)的新技術奪得了imagenet的桂冠。從這項技術的名稱中我們看不出什麼;據他們描述,他們設計了一個遠比典型設計複雜的神經網絡——這個網絡能夠進行多達152層的複雜數學運算,而典型設計一般隻有六七層。這預示着未來幾年,微軟這樣的公司将能使用gpu和其它專用晶片的龐大叢集來極大提升包括圖像識别在内的各種各樣的人工智能服務,包括識别語音甚至了解人類自然表達的口語。

換句話說,深度學習目前還遠沒有達到實力的極限。lee說:「我們才剛剛在這個巨大的設計空間中起步,以找出下一步的方向。」

神經元層

深度神經網絡是按層排布的,每一層都運作着不同的數學運算(即:算法)。一層的輸出又會成為下一層的輸入。舉例說,如果一個神經網絡是專為圖像識别設計的,那麼其有一層是用于搜尋圖像中的一組特定的特征(如:圖檔的邊緣、角度、形狀、紋理等),後面的運算層則用于搜尋其它特征。這些層是神經網絡「深度」的關鍵。「一般而言,如果你讓這些網絡更深,那麼它們的學習能力也就越強。」北卡羅來納大學研究者alex berg說,他幫助監督了imagenet的比賽。

目前典型的神經網絡設計一般包含六七層,部分可以達到20到30層,但由jian sun上司的微軟團隊則實作了152層!本質上這個神經網絡在圖像識别上能表現得更好,因為它能夠監測識别更多的特征。lee說:「還有非常多的微妙的特征可以學習。」

據lee和一些非微軟的研究者介紹,過去這種非常深的神經網絡是不可能實作的。部分原因是當數學信号從一層傳輸到另一層時,信号會被稀釋并逐漸消失。lee解釋說,微軟建造的神經網絡可以在不需要某些層時跳過它們,信号隻傳遞給有需要的層,進而解決了這一問題。lee說:「當進行這樣的跳過時,我們可以更進一步地保證信号的強度。事實證明這種方法給計算精度帶來了很大的有益影響。」

berg說和之前的系統相比,這一方法有顯著的差異,而他相信其它公司和研究者也會進行跟進。

深度的困難

另一個問題是建造這樣的大型神經網絡是極其困難的。為了确定每一層的工作模式以及與其它層的通信方式,需要将不同的特定算法部署到每一層上,但這卻是一個極其艱難的任務。但微軟在這裡也有技巧。他們設計了一個能夠幫助他們建造這些網絡的計算系統。

jian sun解釋說,研究人員可以識别一些可能有用的大型神經網絡部署方式,然後該計算系統可以在一系列的可能性上對此進行循環計算,直到确定出最佳選擇。「大部分情況下,經過一些嘗試後,研究人員會學到一些東西,然後反思,又開始為下一次嘗試做新的決定。你可以将其看作是『人工輔助搜尋』。」

據深度學習創業公司skymind的首席研究專家adam gibson介紹,類似的做法現在越來越普遍。這被稱為「超參數優化」(hyper parameter optimization)。他說:「人們可以讓一群機器跑起來,一次運作10個模型,然後找出最好的那個使用就行了。他們可以輸入一些基本參數——基于直覺确定——然後機器在此基礎上确定什麼才是最好的解決方案。」gibson指出,去年twitter收購的一家公司whetlab就提供了類似的「優化」神經網絡的方法。

「硬體問題」

正如peter lee和jian sun所說的那樣,這樣的方法并不完全是「暴力破解」的問題。「如果有非常非常多的計算資源,人們可以想象制造一個巨大的『自然選擇』配置,其中的進化力量可以通過一個巨大的可能性空間幫助引導暴力破解搜尋,」lee說,「但目前世界上還沒有這樣的可用計算資源……目前而言,我們還仍然隻能依賴那些非常聰明的研究者,比如jian。」

但lee同時也說,多虧了新技術和充滿gpu的計算機資料中心,深度學習獲得了巨大的可能應用領域。這家公司的任務中很大一部分都隻是擷取用來探索這些可能性的時間和計算資源。「這項工作極大地擴張了設計空間。就科學研究而言,覆寫的領域已經在指數式擴張了。」lee說,而這也已經突破了圖像識别的範疇,進入到了語音識别、自然語言了解等其它任務中。

lee解釋說,也正因為覆寫的領域越來越多,微軟在提高其gpu叢集的運算能力的同時也在探索使用其它的專用處理器,其中包括fpga——一種能針對特定任務(如深度學習)程式設計的晶片。「另外我們的研究者還在探索實驗一些更具實驗性的硬體平台,」他說。而且這項工作已經在全世界的技術和人工智能領域掀起了波瀾。去年夏天,英特爾完成了其曆史上最大的并購案,收購了專注fpga的altera。

gibson說,事實上深度學習或多或少已經變成了一個「硬體問題」。是的,我們仍然需要頂級研究者來引導神經網絡的創造;但漸漸地,對新方法的尋找變成了在更強大的硬體組合上尋找暴力破解算法的問題。gibson指出,盡管這些深度神經網絡工作效果非常好,但我們并不清楚它們為什麼能工作;其中訣竅隻在于找到能得到最佳結果的複雜算法組合。而更多更好的硬體可以縮短這條路徑。

最終,有能力建立最強大的硬體網絡的公司将順理成章地領先。現在也隻有谷歌、facebook和微軟了。那些擅長利用深度學習的公司隻會越過越好。

本文轉自d1net(轉載)

繼續閱讀