天天看點

CAAI演講實錄|微軟鄧力:驅動大資料人工智能多種應用的三類深度學習模式

8月26日至27日,在中國科學技術協會、中國科學院的指導下,由中國人工智能學會發起主辦、中科院自動化研究所與csdn共同承辦的2016中國人工智能大會(ccai 2016)在北京遼甯大廈盛大召開,這也是本年度國内人工智能領域規模最大、規格最高的學術和技術盛會,對于我國人工智能領域的研究及應用發展有着極大的推進作用。大會由csdn網站進行專題直播,并由百度開放雲提供獨家視訊直播技術支援。

在26日的主題報告環節,微軟人工智能首席科學家、ieee fellow鄧力博士做了《驅動大資料人工智能多種應用的三類深度學習模式》的主題演講,他首先介紹了深度學習的基本定義,以及深度學習的三種模式。鄧力表示,ai=感覺+認知,首先是感覺,更深層次的是認知,而人工智能目前更需要解決的是認知的問題,而深度學習是提升認知,推進人工智能進一步發展的最有效的方法。然後,鄧力介紹了深度學習在語音識别方面的進展,他表示,目前蘋果、谷歌、亞馬遜都在用深度學習研究語音識别,并取得了較好的效果。接着,鄧力介紹了深度學習對于圖像識别的影響。鄧力接着介紹了深度學習在機器認知方面的進展,通過使用long short-term memory rnn等模型,目前已經可以實作效果比較好的效果。最後,鄧力介紹了增強學習,他表示,深度學習加增強學習可以解決更複雜的人工智能難題,而深度非監督學習則是未來人工智能的又一個重要的研究課題和未來的發展方向。 

以下為鄧力演講實錄(未經演講者本人确認):

鄧力:今天講的題目是深度學習的三個模式,第一個模式是大資料來深度學習,第二部分就是怎樣增強學習方法,把這個深度學習做的更好,因為題目有深度學習,我就希望深度學習的基本概念大家要了解,在一開頭就把深度學習這三個基本要點給你講出來了,然後第一個就是原始定義,深度學習有好多層的非線性了解變化,這本身并不是特别重要,首先好多層的非線性層次的話,這跟大腦是有一定的關系,他就是使得從端到端的優化很必要,否則的話在深度學習之前的很多模型就比較的淺,端到端并不是特别明顯,而且很大一部分深度學習的進展是包括怎樣把這個深層優化解決,然後使它有非常大的進展,更重要的是好多層的非線性的變化的結果是什麼呢,是在不同的層次上面把它抽象化進行層次的分類,這一點在所謂的圖像上面顯得特别的清楚,在不同的層次上面看到有的時候是比較淺層的特征,接近于最後的認知方面越來越明顯,在語音識别上面我們也發現有類似不同層次的抽象。

實際上這種抽象對于最後的了解意義是更大的,可能最後會有一些例子來表示,這個是深度學習的主題,這次演講的主題,給深度學習的機器進行學習之前一定要把輸入比對好,否則這個y和x之間就做不了深度學習,他一定要跟輸入系統在語音識别的情況下,你講一個句子,這種學習方法很大的局限是什麼,就越來越大之後,你這當中的價錢非常高,使得非常非常大規模的深度學習,并不可以那麼如意的進行,是以現在很多的公司内部做深度學習,隻是把資料量局限到三千小時、三萬小時,然後再到三十萬小時、三百萬小時,也要按照現有的學習方法來訓練的話,這已經到了一定程度,這個經濟上就劃不來。

還有一個叫做reinforcement,另外一個就是非建構學習,這兩個方向的學習是目前深度學習的更加活躍的領域,大部分是在幾條線運用,很多成功的例子,能夠為下一步的這兩個更重要的深度學習做一下分析。

我這個題目還有一個ai,什麼叫人工智能,就是人為造成的智能,是以從我們現在的角度來講,就想把人工智能分成兩部分,一部分是所謂的感覺,那感覺的意思是說什麼,就是說就你所看到的這些現象,視覺的現象,還有語言的現象、音樂,跟這個人怎樣把原始信号變到一些跟認知有關的過程,語音識别也屬于認知,圖象識别也屬于認知,下面更重要的是叫做機器的認知,包括自然語言,機器認知很大的部分,就是怎樣把符号進行變化,然後就可以形成知識,剛才你看到李教授講的那些機器人,得到控制必須要了解你的實體過程,然後還有很大的一部分是包括人工對話,這一方面最近很多公司在做非常大的投入,包括微軟公司也有很多有關的消息,是以我也想趁這個機會向大家介紹一下我們微軟的廣告,讓大家稍微了解一下這個新的領域,這個領域完全是屬于機器認知部分的人工智能。

我現在在講之前,先把人工智能的運用跟大家講一下,剛才譚院長也有講過,首先讓大家知道,深入學習在語音差不多是2010年的時候,2年之後獲得成功,他們用的方法都是現在還沒有用到将來可能有用的大資料量,隻不過比他們之前大的資料的識别,然後包括翻譯包括了解包括問答,現在第一步的成功我們已經看到,兩年前左右,我們看到這個成功率,比如說翻譯現在已經超過了傳統的方法,然後在games上面也有很大的成功,也起了一定的作用,那麼下一步的波浪,這隻是我的猜測,我現在有相當多的背景,比如說知識提取,現在完全改造成從以前的的方法變成到現在的人工智能方法,一些主要的廠商都在做,像百度也是往這個方向在做,現在大家好像還沒有看到,實際上有很多人工智能都在裡頭。

下一步的成功,這隻是現在很多很多研究在這方面,就是所謂的對話,就直接用現有成功的深度學習達到成功的效果,然後其他的今天沒有時間講,據我了解有相當多這方面的應用,就包括最近你們看的谷歌地圖,在環境保護上面,而且在建設方面,已經有了巨大相當多的突破,那些報道已經人員節省了40%。

首先把這個建構深度學習在語音識别的應用給大家做一個回顧,基本思想就是用非常大量的比對的輸入資料,輸入你要知道他講什麼,把這個準備好以後就丢到深度學習的機器以後,就一步一步往下講,2009年差不多年底的時候,我們當時做了一個非常好的合作,當時我們到了微軟來,然後把這個基本的深度學習給我們介紹了,因為當時我們在這之前幾年之内,我們實際上用了非常強的方法,從語音識别的過程來講,大家知道說他是一個非常強的多層次的結構,比如從語音深層次的角度來講,首先這個概念比如現在要講什麼東西,幾個毫秒之前我的腦袋就知道,或者昨天晚上就過了一遍,然後就不同的聲音的元素是跟不同的控制的目标連在一起的,從這個裡頭可以控制機器,是以剛才李教授講手的控制,然後嘴巴、舌頭的控制,這個完了之後可以描述動态系統,那麼運動完之後有一個原理,把這個運動轉化成我的語言,怎樣把他變成一個識别,這是一個很傳統的方法,然後把它作為非常深的,我們做了4到5年的時間。

當時在2006年寫了一篇文章,那個實際上跟我講的非常像,他用的方法是什麼,就直接是神經網絡來把最後的生産出來,這個是非常有用的。

看了以後當時就覺得這個語音又到我們本身這上面,确實是有影響的,而且這個方法到現在還在進行。

我們做了兩年到三年做這個方法,直接用很簡單的神經網絡,差不了多少,是以我一看這個東西肯定有學問,是以我們就繼續把它加大,原來的計劃是加大到一定程度以後再回去把語音知識用實體的形态,現在太成功了,大家根本不想回去,但是我想下一步不能做無架構的深度學習,這些是必要的。

經過了大概2年多的艱苦奮鬥,包括研究院北京的員工我們合作,合作了以後呢,我們就終于在2012年我們提出一個很重要的,差不多2010年的夏天的時候,我們發現說如果資料量變的越來越大之後,原先的方法,這可以把它丢掉,為了保證說我們這麼做是有比較好的理論根據,我們當時還做了非常強的分析,從理論上看出來大資料确實可以不需要那麼複雜的,原理實際上很簡單。現在所有的深度學習這一塊基本上就不用當時所用的方法,而且你們看文獻的時候,你們要看2012年之前的文獻的時候都是合在一起,我們在2012年其實是分開的。

這麼成功的語音識别方法,我們并沒有很多的知識權保護,這跟大家的人工智能有點關系,是以他就把我們這一段講的,講的非常顯著,我覺得這個也有關系。

深度學習2015年的時候他就成為我們一個非常好的合作者,這個是2012年的時候,今後兩三年之後,2014、2015年也降到了,我就不講太多,在一年之後成功之後,非常快,跟以前我們用的很複雜的方法來講,他需要的要少多了,是以非常快,所有的産品都全部用深度學習來驅動,蘋果跟亞馬遜一般很少在外面去講東西,從這個過程我們就知道,再過了一年以後,差不多2014年,demo就完全轉成為産品,你們可以用不同的語音,現在已經可以互相對話了。

下一步講一下深度學習對recognition的影響,對于圖像識别會比他快更多,這個好像是2011年開始,因為我自己直接參與這方面的工作,是以你看在這之前的話差不多一直20%左右,2012年那時候,那個時候不完全知道大資料可以把語音識别淘汰下來,當時他們出來的時候,公布的時候是10月份,馬上就說你看他是多少,當時把這個結果發給微軟,我說你們看一下,我的同僚也都說可能出了一些問題,也可能說這個是不夠好,就是投機取巧,我當時一看就馬上知道和語音識别一模一樣,就是把模型做大。

這個是2013年的成立的公司,2015年就是幾個月前,我們微軟的團隊做了這個,已經低于人的錯誤率,哪怕所用的神經網絡是更深,這個深度在多少年以來一直到2016年,大家認識到這個深層是這麼的重要。

在認知上面,我剛才講的都是在感覺上面的應用,在認知上面的應用,最近很大的一個突破是在機器上面,用記憶模型跟用注意模型,這個都是人的認知的技能,把這些模型用到深度學習上,讓他能夠解決機器認知上面的問題,大家對深度學習有一定了解的話,是以怎樣把這個讓很多的short-term,就變成long-term,就人腦的殘迹的記憶,是以這隻是一個數學的模型,,這個比較複雜,然後他是一個動态的模型,以前比如兩千三千就被幾百個給他替代掉了,有了這個之後就可以記一些相當好的資訊,他如果需要,他可以馬上忘掉,用什麼方法使得這個模型把有住的記住,沒用的忘掉呢,是以說我看了很長時間,然後兩個禮拜前在1997年發明的這個模型,20年沒有人用,首先非常複雜,我們兩個都同意說這個模型是一個現象模型,跟人類的記憶是差的非常遠,那麼有了這個模型之後,可以做的很多的一些方法,包括機器學習,包括一些語音識别,然後了解,然後包括做人工對話,當然你們可以認識到說當他本身的這種神經的機制跟真正人的認知有這麼大差別的時候一定有很大的空間讓大家做更多的研究。

有了這個之後你就可以做非常有意思的東西,這個是一年多前發表的,這個東西為什麼會翻譯的這麼好,他的精髓在什麼地方,精髓就說通路進去英文出來,然後他基本上就是我通路出去,我到這裡以後,這一層已經把所有的資訊給他,另外也輸入,然後把這個解碼器的網絡進行驅動。

下一步我就講一些更深層的一些記憶模型,這個是memory,最後記憶就可以出來,這個就不講太多。增強學習的話可以把它了解成說就以前的增強學習舊的加上深度學習,把它加在一起就可以解決以前的學習解決不了的問題,要是沒有深度學習的話,這個本身就解決不了這個問題,增強學習的方法是看長期的,開始的話也可能一個人打一個,那你看這個,一下子跑到上面去,就短期也可能會差一點,但是長期的話,在整個學習的過程中可以把這個長期的給儲存,這種方法用到阿爾法狗使得他戰勝高手。

這裡有兩個深度學習的網絡,第一個是現在是哪一步可以下,第二個神經網絡讓你說下到最後好不好,阿爾法狗是把不同機器學習方法組合在一起,第一個神經網絡使得他的寬度減少,這樣就可以使得正在學習搜尋方法在相當比較局限的時間内可以把所有主要的那些東西全部搜尋出來。

再講一下深度增強學習既定化的應用,這個不講很多,但是最近我寫了一篇,就是從高層上面機器學習角度來講的,首先就說現在已經達到了一個局限,同時呢成為了一個新模式,人機交界應用上深度學習已經到這個領域來了,這個應用為什麼需要用增強學習方法呢,是因為說我們互動過程中并不是說每一個對話每一個階段就要得到什麼,這個不可能的,真正你說要是用機器繪畫,可能經過幾輪,如果你想用這個機器幹一些事情,讓你買機票、訂餐館,你最後得到的資訊是在完成任務之後,是以這個是非常非常符合的地方。

最後講一下,這個是一個非常大的領域,我們也在研究,要是沒有這個你到底怎麼做學習,大家都沒有想到,但是它的精華就不同的研究部門有不同的想法,然後我們的想法是就說一定要把整合人類的現有的知識包括語音識别訓練,應該把這個深層學習的方法整合到一起,你們要做深度學習,我們現在很多人都是用,做不了,你首先就不知道怎麼優化,我們想了一個辦法。

我們做一個比較簡單的實驗給你看,你要是做神經網絡,這個很奇怪,他旁邊有一個很大的堡壘,我們研究的時候其中一個結果,讓你看到說這個困難在什麼地方。

最後一段話,從我們的角度來看,将來的ai會往什麼方向發展,第一個就說我們的ai是一個一般式的ai,是以今天早上譚院士講的話跟我是完全符合的,用一個最通用的,最後成功的ai一定是通用的ai,否則這個ai不會被整個業界廣泛的采用,怎樣把一方面的知識轉化到另外一方面的知識,做一個非常深度的研究,而且必須要能夠自動的擷取并且産生新的知識,就使得新的知識能夠把所有的知識融合在一起。我就希望整個業界能夠把人工智能作為一種科學的研究來看待,而趨向就是廣泛能夠使用ai,語音識别ai跟圖像識别ai還不一樣,圖像識别的深度學習你要有不同的結構,我們語音識别就有不同的結構,然後你要是阿爾法狗用的方法跟做下圍棋和下象棋也是不一樣的,将來應該有一個統一的構架,他可以解決各種各樣的問題,比如說醫療,比如說看書,比如說小孩要聯考,用一個ai就可以了,我今天就講到這裡,謝謝大家。

本文來源于"中國人工智能學會",原文發表時間" 2016-08-30"

繼續閱讀