天天看點

“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算

(本文根據華先勝/方廣2017年5月22在全球人工智能技術大會上的演講整理)

今天和大家報告的主要是近兩年在阿裡雲上做的視覺智能方面的工作和一些思考。

首先看一下人工智能的三次“春天”。第一次是在20世紀50年代,人工智能的概念首次提出,大家覺得人工智能在20年之内會改變世界,所有的工作都會被人工智能颠覆。但是後來很遺憾,10年以後發現不行,大家很失望。第二次是80年代,神經網絡的提出,bp算法的提出,以及專家系統的初步結果,大家又很高興,人工智能又要改變世界,取代很多人的工作,但是後來證明還是不行,人工智能又一次進入了低谷。第三次就是今天,這次是不是真的春天呢?昨天有一個論壇也在探讨這個問題。這次有一些不一樣,有很多不同的觀點,有人認為深度學習取得了很大的突破,計算能力大大提升,資料更多,網絡帶寬也大大增加。還有一個很重要的原因,我們已經看到一些結果,雖然這些結果離真正的智能還差很遠,但是在一些領域已經取得了非常不錯的結果,不管是隻有pr效應的還是真正在産業界的應用,都有一些可喜的結果。

“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算

人工智能技術将會改變哪些行業?我們先從視覺的角度看一看,視覺智能可以從雲上做,也可以從端上做,我們今天就從雲上來看。我們看看現在發生了什麼樣的事情,其實有的是發生了很多年的事情。

大家看這些圖,左上角是交通的監控場景,右邊和左下是治安和教育的場景,最後一個是直播。直播是主動的,前面三個是被動的。這些大量的資料,其價值有沒有被充分發掘出來,這是一個很大的問題。例如,在全世界有數以億計的攝像頭,中國占了一多半,每年有幾千萬的攝像頭被采購,中國一個一級城市裡就有幾十萬的攝像頭。大家可能也注意到一些,這些攝像頭的資料到底是怎麼被利用的,大家開車可能被處罰過,還有交警的控制中心經常要巡檢檢視,警察局裡出了什麼案件也需要調錄像檢視。僅有這些嗎?投入了這麼多,這些視訊的價值怎麼才能充分被挖掘出來,這是一個很大的問題。

“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算

再看個人的圖像和視訊資料,這個量也挺大,和我們每個人切身相關。我們每到一個好的地方、有好的風景,自己看沒看沒有關系,一定要讓相機“看”一下。另外還有各行各業的資料,比如無人機的資料、工業的資料、醫療的資料,以及體育、娛樂、新聞等等。這些大量的資料,在技術往前發展了一大步的今天,它們的價值能不能充分挖掘出來?

我們處理這樣的資料,就是一個視覺大資料的問題。它的特點是顯而易見,第一就是資料量非常大。視覺資料量最大的地方就在城市裡面。有一些電視台有100萬小時的資料,已經很多了,後來想一想,如果一個城市裡有10萬個攝像頭,跑10個小時就是100萬小時。第二是很多應用有實時性的要求。例如,交通紅綠燈配時的自适應優化,就需要實時進行分析,實時做出決策。第三點就是資料的複雜度非常高,各種情況下的資料都有,各種應用的資料都有,資料的幹淨程度和品質都有很大的不同,需要完成的任務、開發的智能也都是不一樣的,這就對算法的普适性提出了很高的要求。

我們首先回顧一下現在的技術和資料等各方面是不是準備好了。

第一方面,從算法的角度來看,準确率是我們首先關注的目标。我們經常看到這個公司又重新整理了一個公測集的記錄,包括我們自己最近也刷了一個車輛檢測的記錄。這是不是說明視覺智能已經很厲害、已經超過人了?在現實的應用當中往往是非常殘酷的,公測集上的結果往往隻是一個開始,在實際應用中還需要很多非常繁重的工作,才能使得我們的算法在一個行業裡做到可用。其次,從覆寫率上來講,這個問題就更大了,在座的各位可能很多都是學生,我們在寫論文時很少有人關注覆寫率這個問題。覆寫率是什麼意思?如果從識别的角度來講,就是識别的範圍足夠大。這個問題很有意思,例如,imagenet中1000類物體場景的識别,我們拿到真正的應用場景裡去看,是遠遠不夠的;或者說,實際應用場景感興趣的常常不是這些類别,也就是說這些還沒有覆寫到使用者需要的地方。你要覆寫全世界是非常難的事情,但是不見得是不能做的事情。幾年前我在微軟還嘗試做過百萬标簽識别的問題,這個準确率當然很難做得高,但是在一些場景下也是可以用的,例如搜尋。覆寫率在視覺搜尋中的展現,例如,能搜衣服,不能搜鞋子不行,不能搜其他東西也不行。使用者的使用體驗往往與覆寫率有非常大的關系。

第二方面,計算效率。效率決定了這個事情可不可能發生,比如我們要處理城市幾十萬的攝像頭,需要花幾十億就完蛋了,這不是成本的問題,是這個事情可不可能發生的問題。從計算的角度來講,不僅僅是計算的效率,還有計算的平台,尤其是當你處理大量資料時,不是一兩台機器,而是百台、千台、萬台時,就需要處理系統和流程的問題,比如說容錯、流程的控制等,這就需要一個大的計算平台來支撐。從計算來講,效率是非常重要的,包括平台的效率、計算節點的效率。例如,一台計算機放多張gpu卡,這些卡如何充分利用起來。還有算法本身運作效率的問題。剛才我忘了說一句,關于算法的一個結論:我們确實有很大的進展,但是還有很長的路要走。對于算法而言,隻有把計算的效率發揮到極緻,算法的優勢才能發揮到極緻。

第三方面,資料。這也是争論最多的問題,昨天也有一個論壇讨論資料的問題。大家經常發現資料的威力有時會超過算法,當然如果隻是學生作為借口,做不好算法說是資料的問題,那是另外一回事。在昨天的論壇上也一直讨論資料和深度學習算法的問題,實際上資料的使用有兩個方面的問題,這個還是一直沒有說清楚。資料的作用到底在哪裡?我覺得很多時候大家隻是關注了資料對算法研發的作用,但是這隻是其中一個作用;而資料對智能本身是另外一種作用,而且是很重要的作用。沒有資料,就沒有從資料産生的智能。至于沒有大量資料是不是就沒有深度學習算法,這個還可以商量,也許少量的資料也是可以的,但是作為智能,尤其是強人工智能的話,如果沒有大量資料恐怕是不可能的。是以,資料是有兩個次元的作用在裡面,資料本身是算法研發的原料,同時資料又是産生智能的原料,這是資料的兩個作用。資料本身也有很多的困難,資料量大的時候,包括采集、傳輸、接入、融合和存儲等各方面都不是簡單的事情。還有非技術方面的困難,尤其是資料的開放,其實在中國這件事情已經比西方國家好得多了。在中國,大家對資料開放沒有那麼糾結,這也是人工智能在中國獲得更快發展的一個很重要的原因。

第四個方面,剛才講了人工智能風聲水起,視覺計算遍地開花,但是,花開了,能不能得到結果?就是你做的事情是不是個正确的事情,是不是真的事情。有時候看起來是個真事情,其實是個僞課題、僞需求。昨天也有人提到僞需求,我們在實際當中确實是會碰到的。客戶有時提出的需求,仔細想一想可能就是僞需求,也就是說不是一個能夠帶來真正價值的需求。無論你帶來的價值是節省了人力、降低了成本,還是提高了安全性等等,這些都是要非常明确的。如果這些不明确,你就沒有一個商業的模型和應用,沒有明确的商業應用,沒有持久的商業應用,這個ai也就不能持久。

總結一下,一共五點(有一點沒有直接講):算法是安身立命之本;計算平台保證算法能大規模處理大量資料,也是計算效率的問題;資料,一方面是算法研發的原料,也是産生智能的原料;使用者這個要素剛才沒有單獨分析,但它與商業模式和資料是非常相關的。商業上,有大量的使用者使用,或者說使用者少,使用的頻率比較高也是ok的,而使用者本身也能産生資料。例如,搜尋引擎就是利用了大量使用者的資料,每個人對搜尋引擎都是有貢獻的。商業剛才講了,合适的商業模式,保證你做的是正确的事情,不是虛假需求。

下面講幾個例子,有的是已經做好的,有的是正在做的。

首先看基于圖像的商品搜尋。我們今天講的是視覺的搜尋,是通過拍照的方式搜尋商品。淘寶上有一個功能就是拍照搜尋,叫做“拍立淘”。它要解決的問題就是文字之外的搜尋入口,是無法用簡單文字描述的搜尋需求,是種簡單直接的搜尋方式。如果這個應用每天的使用者和交易量在千萬級别的話,還是很有價值的。這裡關鍵的技術包括商品識别、商品檢測、和商品描述。首先,使用者拍了商品照片後,要做出精準的商品類型判斷,不然後面就全錯了;然後要知道這個商品在圖像中的位置,再用一個深度學習網絡做特征提取;後面還有檢索、排序、搜尋品質判斷,以及結果呈現。這裡的幾乎每一步都是用深度學習來完成的。

我們來看幾個例子。這是同一個包,但其實圖像是不一樣;這是一隻鞋子,雖然我們沒有找到同款,但找到了非常相像的款式;這是一件圓領衫,沒有什麼顯著的特征,比較難做,但也是找到了很像的衣服;這個杯子是一次開會的時候看到的,你要用文字搜就說不清楚了,但用圖像找到同款卻易如反掌。還有個例子,是和朋友喝茶的時候,看到這個泡茶杯太好了,我之前沒有見過;杯子上面有一個紅色的按鈕,就是水倒下去後,水是在上面泡着茶葉,覺得泡的濃度差不多了,就可以按這個紅色的按鈕,茶水就流下去了。我想買,但不知道這個杯子叫什麼。好在我們有拍立淘,一拍就知道,這種杯子叫做飄逸杯,淘寶上有很多可以選擇。

“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算

視覺之眼,是城市的眼睛。我們要處理的是城市的攝像頭,不管是交通、安防、城管,還是個人的,這些攝像頭的資料,我們思考怎樣把它的價值挖掘出來。裡面涉及到的技術仍然是視覺資料的檢測、識别、系統、搜尋、挖掘等。

這個例子是交通視訊的分析,對車輛的檢測、車輛的跟蹤、車輛的屬性,就是将路面上發生的事情了解個底朝天。過去做交通優化的時候有兩個資訊源,第一個是地感線圈;但線圈資料不知道這個車的屬性、車類型、車多長,這個車到哪裡去了,這個資訊不全。第二個資料,是gps的資料;但一般隻有少數人開啟gps,是以是采樣資料。視訊資料不同,是“眼見為實”,攝像頭見到的才是真實完整的資料,是以這個資料是不可替代的。

這個例子是另外一種攝像頭,高點的攝像頭,雖然細節看不清楚,但是數數可以數得出來,而且,你任意畫一個區域就知道關于這個區域物體的移動情況。比如說經過多少輛車、大概的類型是什麼;有的地方不讓停車,你可以畫個區域不讓停,一旦有車停了就報警。

這些技術也沒有什麼特别的地方,也有很多人做類似的工作。但是有一件事情不同,就是如果處理大量這樣的資料,幾萬、幾十萬這樣的資料,你需要在一個平台上進行實時處理,這就不是一個簡單的事情,而且處理的效率要足夠高,這是很關鍵的事情。我們有離線和實時兩套處理系統,大規模離線視覺分析,這個是阿裡的一套系統,對實時性要求不高的大量視訊資料,離線比較容易處理。實時的原理也差不多,隻不過有延時方面的要求。系統實作上,還有時間上的和空間上的實時協同。比如說,對一個路口的交通燈進行管控,你要看這四個路口,還要看旁邊幾個路口,你在實時分析的時候還需要把空間多路資訊進行融合。時間和空間的協同問題,是由平台來支撐,而不是算法,這樣我們做算法的人員就可以集中在算法的設計和優化上。

還有搜尋的功能,剛才講了電商的搜尋,這個量級不小,但是還有一個量更大的就是城市的資料。城市的資料量太大了,裡面有車、有人。人是非常難的事情,人臉相對容易,而看不清人臉的人就非常難;車相對容易一點,我們要學習它的結構化特征和它的非結構化特征,也就是用一個向量表示的視覺特征。

這裡我稍微岔開來講兩個關于視覺資料的特别的例子,其實也是城市視覺識别技術的例子,但又是在資料的量上和我們直覺的感受并不太一緻的例子。第一個是車牌。資料這件事情是非常有意思的,剛才講了大資料,但是剛才講的資料一個是研發算法的原料,第二個是人工智能的原料。對于算法研發而言,往往需要大量的标注資料,但有時這樣的資料并不容易擷取,或者擷取的成本比較高。例如車牌的識别,車牌看起來資料量很大,但雙層黃車牌的量就要小很多。有一種思路就是自動生成一些車牌作為車牌識别的訓練資料,這兩幅圖就是例子,是算法生成的以假亂真的車牌。這個車牌産生以後,對識别的準确率有顯著性的提升。還有些場景,資料的擷取更可憐,比如事故,但是你有大量正常的樣本,一樣可以用來作資料的模型,把它作為異常檢測的問題來做就可以了。這上面是公開測試級上的結果,視訊中間有人撒了一點紙,這個異常的檢測響應是非常明顯的;下面的這個例子是車輛的刮蹭,是個真實場景,難度就大多了。

“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算
“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算

從搜尋的角度來講,我們把整個城市的資料如果都收集起來,放到一個大資料裡,建好索引,大家腦補一下,将會對城市的交通優化等應用産生什麼樣的影響。如果我們再進一步挖掘資料的價值,有很多應用場景可以考慮 ……

第三個是視覺診斷,包括診斷人和診斷機器。診斷人比較好說,就是醫療圖像分析,現在也是很熱的題目。當然它比其他的方向慢了半拍,一方面由于資料收集的困難;另一方面是需要很強的專業知識。機器診斷是還沒有開發的方向,它的問題有點像前面提到的異常檢測的問題,有發生機率很低、正例樣本很少,以及正例樣本差異性大三個特點。舉個例子,1萬個樣本,隻有10個有問題是你要找出來的。但是你找不準那10個,隻能說找出100個,那10個就在100個裡面。這時你的召回率是100%,而準确率很低,隻有10%。但是,這有沒有用?我們算算省了多少人力,省了99%,因為你隻需要看100個就行了。哪怕隻有1%的準确率,隻要召回率足夠,也省了90%的人力。是以這類問題的目标不一樣,衡量的标準也是不一樣的,省人力是非常重要的名額。其實這裡面涉及到各行各業的視覺問題,凡是過去需要人眼來看的,是不是都可以用視覺的方法來解決。從這個角度來講,就是遍地黃金,很多地方都可以挖到黃金,不見得出來一個視覺創業公司就一定要去做人臉識别。

前面三個是偏分析、搜尋的,第四個方向——視覺廣告,是合成的方向。視覺廣告是将視覺資料變現的最直接方法,特别是對于娛樂的資料、個人的資料、新聞、電視電影等這些資料。這些資料怎麼發揮更多價值,除了人看以外,廣告是很重要的方法。但是增加廣告後使用者的觀看體驗就很差,大家如果看過網上的視訊,應該有深切的體會。那廣告是不是可以做的更好一點?我們看幾個例子。例如,可不可以把廣告放在場景裡,作為場景的一部分?當然,這個已經有人工在做這樣的事情,但是人工做不了大量的内容。如果可以自動化,就可以用到大量的視訊中。像下面這個例子,把視訊中電視機的螢幕部分換成廣告視訊。這樣的廣告既不耽誤觀看者欣賞視訊的内容,也不占用觀看者的時間,但實際上它已經潛移默化地影響了你。

阿裡雲上的視覺技術有一個統一的名字——阿裡雲眼,是阿裡雲大資料平台的智能視覺中心,這是它的總圖。回到一開始提出的問題,人工智能将會改變什麼行業,答案就是智能将進入各行各業,intelligence everywhere勢不可擋。但是,人工智能的從業者也是很容易翻船的,因為你需要這五個要素齊備。還有一種選擇,就是你可以加入到一個生态裡。終于回到今天講的主題上來了——打造雲上視覺計算的生态。不僅僅是視覺,其他智能也是一樣。在雲上可以搭一個舞台,這個舞台不僅僅是大公司在玩,小公司也可以玩,個人也可以玩。不管是哪個層次的智能,基礎api、功能子產品和解決方案都可以。這個舞台上還有一些基本的道具可以使用,例如搜尋引擎、機器學習平台、大規模視覺計算等,還有最基本的計算和存儲,這些東西都可以利用起來,大家都可以在這個平台上玩。其實,整個雲上的智能也不是一兩個公司可以完成的,各行各業的需求量非常大,需要很多人一起努力,把這個生态一起繁榮起來。

“雲中觀世界”之二:視覺智能生态雲上的大資料視覺智能視覺智能的五要素和現狀視覺智能執行個體:拍立淘視覺智能執行個體:城市之眼視覺智能執行個體:視覺診斷視覺智能執行個體:視覺廣告雲上視覺智能生态下期預告:3~5年後的視覺計算

謝謝大家。

“雲中觀世界”之三:3~5年後的視覺計算

繼續閱讀