天天看點

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

張長水:大家好,我來自清華大學自動化系,主要做機器學習和圖像識别的研究。現在人工智能很流行,機器學習也推到風口浪尖上,圖像識别已經變成産品,新聞媒體告訴我們AlphaGo、AlphaGo zero已經戰勝了人類、皮膚癌的識别超過了大夫、無人車已經上路測試,很快要量産。這些新聞仿佛告訴我們,圖像識别的問題已經解決了,然而很多高科技做圖像識别公司都還在高薪聘用掌握機器學習的人才。圖像識别問題解決了嗎?我們看看現在圖像識别還有些什麼問題。

一、大量資料

現在做圖像識别,要求有大量的資料。什麼叫大量的資料?比如上圖是在業界做圖像識别的資料集,包含很多類别的圖像,像飛機、鳥、貓、鹿、狗。對于一個物體,需要有不同的表現,需要有不同的外觀在不同的環境下的表現,是以我們需要很多照片素材。

盡管在我們領域裡有很多大的資料集,但其實這些資料集遠遠不能滿足我們的實用産品的要求。比如說我們看這樣一個文字識别的例子。文字識别比一般的圖像識别要簡單,因為文字不涉及到三維,它隻是一個平面的東西。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

二、大量的樣本

比如我們要識别清華大學的“清”,通常的做法是收集“清”的各種各樣的圖像,所謂各種各樣的圖像就是說要包括不同的字型,不同的光照,不同的背景噪聲,不同的傾斜等,要想把“清”字識别好,就需要收集上很多這樣的樣本。那麼這麼做得困難是什麼?

三、困難

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

1、樣本的擷取

當我們應用于實際、設計産品的時候,就會發現不是每一種情況下都有那麼多資料。是以,怎麼獲得豐富的資料是首要的問題。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

上圖給大家展示的這一排圖像是一個交通标志的識别任務。我們如果需要去識别路上的交通标志,就要在不同的環境下,不同的光照下,比如說早晨、中午、晚上,逆光還是背光,不同的視角,是否有遮擋,所有的因素都要考慮到,來采集資料。經驗上每種辨別收集上千張或者更多的圖像,才能保證識别率到達實際應用的水準。

我們的問題是什麼?看第一張圖像。第一張圖是有連續急轉的标志。這樣的标志在城市很難見到,除非到山區。這個例子說明,圖像擷取本身就不容易。

2、樣本的标注

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

我們現在的圖像識别方法是基于标注的資料的,這叫做監督學習。圖像标注就意味着把圖像一張一張摳出來。如果我們開車穿梭在北京市大街小巷,但是交通标志并不是在視訊的每一張圖檔上出現。如果我們需要把視訊中交通标志如果都要标出來,需要花很多錢。做機器學習的人會關心我們能不能通過一些其他更廉價的方法去做資料标注,例如能不能通過一些衆包的方式去做。在12306網站購買火車票,每次讓我們勾出相對應的圖像,這可以看做是在标注資料。但是衆包标注資料也存在一些問題,就是每個人标的時候會不一樣,有時會有錯誤。是以在機器學習中,有人關心在衆包情況下、标注資料有錯的時候,我們如何設計學習算法,使得它對錯誤的标注不敏感。這個事大概七八年前就開始研究,不斷的有新的文章出現。

當資料沒有那麼多的時候,怎麼辦?機器學習界遇到了這樣的問題,就是小樣本的資料學習。當樣本不多的時候能不能達到和大資料量類似的識别效果?例如上圖中隻有幾張狗的圖檔的時候,要識别狗,還能從哪裡得到狗的資訊?思路是從其他的圖檔中來,比如上邊有有鳥,有貓,有鹿,它們的皮毛很像狗等等。換句話說,他從其他的豐富的圖像中擷取一些資訊,把那些資訊遷移到這個少量的資料上,進而能夠實作對狗的識别。

另外,圖檔數量是否能降到隻有一張?比如清華大學的“清”,隻有一個模闆圖像,是否能夠把文字識别做好。更極端的例子,能不能做到一個樣本都沒有,也就是說,機器在沒有見過狗的情況下,是否能把狗識别出來,這都是研究人員關心的事情。

3、大資料量的訓練

有了很多的資料還需要對它進行訓練,這通常需要花很長時間,需要配備高端的裝置去訓練。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

我們有了大量的資料怎麼去做訓練?可以采用GPU去做訓練,這樣可以達到特别快的速度。在這大的資料量上進行訓練和學習的問題,叫做big learning。

Big learning 關心是否有更快速的方法訓練呢,需要一個月才能訓練出來的問題,能不能在一天就訓練出來;能不能用并行訓練?如果資料不能一次存到硬碟裡,這個時候怎麼學習呢?這些就是企業和機器學習界都關心的事。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

除此之外,我們發現深度學習模型很容易被攻擊。如上圖左邊是一隻熊貓,我們已經訓練好網絡能夠識别出這是一隻熊貓。如果我在這張圖像上加了一點點噪聲,這個噪聲在右圖你幾乎看不出來,我再把這個疊加後的圖像給網絡,它識别出來的不是熊貓,是别的東西。而且它以99.3%的信心說這不是熊貓,甚至你可以指定他是任何一個東西。這件事情的風險在什麼地方?如果隻是娛樂一下,也沒什麼大關系。但是如果把它用于軍事或者金融後果就比較嚴重了。是以我們一直在關心這個問題怎麼解決,就是希望算法能夠抗攻擊性強一點,但目前隻是緩解而沒有徹底解決。

而且研究中會發現這個問題,相當于去研究分類器的泛化性能。泛化性能這件事在機器學習裡是理論性很強的問題,是機器學習圈子裡面非常少的一些人做的事情。換句話說,這個問題看起來很應用,其實它涉及了背後的一些很深理論。為什麼會出現這樣的情況?因為我們對深度學習這件事沒有太好的理論去解釋它,我們沒有那麼好的方法去把所有的問題解決。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

我們再說風險,圖像識别中我們會把一個學習問題往往形式化一個優化問題,然後去優化這個函數,使這個函數最小。我們把這個函數叫做目标函數。有的時候我們會把這樣的函數叫做損失函數,物體識别有錯就帶來損失。就是說在整個過程我們希望不要有太多的損失。其實,風險函數可能是更合适的詞。因為你識别錯了,其實是有風險的。一般來說目标函數對應于錯誤率,把狗識别成貓錯了一張,把貓識别成狗又錯了一張,都影響錯誤率,而錯誤率足以反映算法的性能。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

但是在不同的問題裡,識别錯誤的風險是不一樣的。比如我們做一個醫學上的診斷,本來是正常人,你判别說他有癌症,這種錯誤就導緻虛驚一場。還有一種情況是他患有惡性惡性良性腫瘤,算法沒有識别出來而導緻了延誤治療。這樣的錯誤風險就很大。是以我們在優化的時候,這個目标函數其實是應該把這樣的決策錯誤和風險放到裡面去,我的目标是優化這個風險。但是這件事往往是和應用、和我們的産品設計相關。是以不同的産品設計,它的決策風險不一樣。是以我們在設計産品的時候,是要考慮。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

蘋果宣稱他們的人臉識别錯誤率是百萬分之一,如果别人來冒充你去用這個手機是百萬分之一的可能性,就是說,别人冒充你是很難的;但是人臉識别還有一種錯誤,就是:我自己用我的手機,沒有識别出是我,這個錯誤率是10%。換句話說,你用十次就會有一次不過。在用手機這個問題上不明顯,但是如果用于金融,這個事就有風險。我們設計産品的時候,你就要考慮風險在哪,我們怎麼樣使得整個風險最小,而不是隻考慮其中一邊的錯誤率。

清華大學張長水教授:機器學習和圖像識别(附視訊、PPT下載下傳)

有公司會宣傳說錯誤率可以降到百萬分之一,讓人誤以為人臉識别的問題已經解決了,然而我們在CAPR、ICCA這樣的學術會議上仍然能看到怎麼去做文字的檢測,怎麼去做人臉識别的研究。換句話說這件事還沒有到那麼容易使用的地步。是以我們做圖像識别的産品有風險,産品設計要考慮風險,我們做這件事就要考慮用技術的時候,用對地方很重要,用錯地方就會很大的風險。

機器學習是一個和應用緊密結合的學科,雖然有很多高大上的公式,其實都是面向應用,希望能解決實際問題。實際應用給我們提出很多需求,圖像識别遇到的問題給我們提出了挑戰。最後,感謝各位的聆聽。

原文釋出時間為:2018-05-14

本文作者:張長水

本文來自雲栖社群合作夥伴“

資料派THU

”,了解相關資訊可以關注“

”。

繼續閱讀