天天看點

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

雷鋒網(公衆号:雷鋒網)按:本文根據張钹院士近日在 cncc 2016 上所做的大會特邀報告《《人工智能未來展望,後深度學習時代》》編輯整理而來,在未改變原意的基礎上略作了删減。

張钹:ccf會士,2014ccf終身成就獎獲得者,中國科學院院士,計算機專家,清華大學類腦計算研究中心學術委員會主任。曾任資訊學院學術委員會主任物聯網物聯網,智能技術與系統國家重點實驗室主任,中國自動化學會智能控制專業委員會主任,計算機學報副主賓,2011年德國漢堡大學授予自然科學名譽博士,2016年獲微軟研究員接觸合作貢獻獎等。從事人工智能理論、人工神經網絡、遺傳算法遺傳算法、分形和小波等理論研究,以及把上述理論應用于模式識别、知識工程、智能機器人與智能控制等領域的應用技術研究,共發表論文200多篇,中英文專著4部。

今年是人工智能60周年,如果用人生的起步來衡量的話,已經進入了老年,不過還是有很多人希望人工智能能提供成熟的成果和技術,用來發展産業、發展經濟進行科學研究。我今天做的報告,将通過分析時代的特點,這個時代下人工智能與計算機的可能命運,來重新認識人工智能,我們賴以生存的計算機,還有我們自己。

如今人工智能的春天又來了,不過和30年前在日本的那次相比,時間不同、地點不同,主題也不同,這一次是關于人工智能第二個成果,深度學習相關的。

從知識情報處理到深度學習 從第五代計算機到類腦計算機 從大容量知識庫到大資料 從高速符号推理到類腦晶片 從自然語言了解到感覺(機器人)

我想這一次是不是我們的機會,我們能不能彎道超車還是又一個日本的“五代機”?我的看法是這兩個可能性都存在,關鍵我們怎麼做。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

中國有句老話,三十年河東,三十年河西,和30年前比現在有何不同?在我眼裡兩點,一點是大資料,另一點是機率統計方法(及其理論)。正是因為這兩個因素催生了現在的深度學習大潮。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

這個第一點大資料我不用宣傳,大家看這個圖就行。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

這是在這種啟發下建立的神經網絡模型,這裡神經網絡模型裡要着重講下機率統計方法論,兩個詞,一個貝葉斯推理,一個機率統計,被“引進”了人工智能,并使得人工智能發生了革命性的變化。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

其實很多人不知道,作為對當下人工智能有根本性貢獻的機率統計,30年前的它跟現在的它還有很多不同。就是下圖的四個裡程碑。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

我們現在能夠做深度學習,能夠在幾百萬、幾千萬的參數下做優化,很多人都以為是計算機變快,其實不完全是,而是要歸功于概念統計方法的變化。這個變化使得我們現在能把深度學習做好。就是上面四個裡程碑的出現,大家一定要注意上面的四個裡程碑。

後來這些裡程碑進一步發展成神經網絡了,特别是深度學習,使用多層網絡進行學習。所謂深度,就是層數比較多。由于用的深度學習方法,把模式識别、圖像識别等識别方法的準确度提高了10%,這個事情又引起了深度學習的熱。

為什麼呢?因為深度學習解決了一個問題,有相當一部分人,按中文的說法,我們知其然,不知其是以然。我能識别了了馬,但我們描述不了馬,然後怎麼辦?那就用深度學習辦法:

它可以解決一些不能完全表述的問題,也就是說“知其然,不知其是以然” 的問題。

第二個它能針對不确定性的問題,我們不斷的變化,我可以不斷的再學習,最後,它能解決不能清楚表達的問題。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

另外,深度學習還有一個完全改變傳統神經網絡的作用,它不僅僅做函數映射,更重要提取那些多層次重複的模式,這是我們講的真正公共的特征。

這樣使我們做模式識别可以達到很高的水準,後來這些用到模式識别、用到語音,包括用到文本(現在正在做,但是效果不如前面,但也有一些效果),效果都很不錯。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

我們可以這麼來說,深度學習這個第二個人工智能提供出來的成果,可以幫助我們解決在給定的資料庫下,有了可利用的大資料,在感覺資訊處理上,有可能達到人類的水準甚至超過人類的水準。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

後深度學習時代的人工智能,就是想把人工智能從這個狹義的,隻能解決一定範圍的方法,推廣更寬廣的範圍去,這就是我們現在講所謂的弱人工智能、強人工智能、以及通用人工智能。那我們要做這個工作面臨什麼挑戰?基本上面臨三個挑戰。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

1)一個是概念統計方法帶來的困難。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

我們剛剛說機率統計方法,對人工智能起到了革命性的變化,但是也給人工智能帶來極大的挑戰,這就是概念統計本身的原因——通過大量的資料,它隻能搞出來重複出現的特征,或者是資料中間的統計關聯性,它找出來的不是本質上的特征、語義上的特征,它找出來的關系,也不是因果關系,而是關聯關系。

這樣做的後果是什麼?這裡有深度網絡做出來的手寫數字識别系統,各種各樣的2它都能認出來,它聲稱它這個性能超過了人,識别能力很超前 。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

但你們看,當我們用這種噪聲去欺騙它,它可以用99.99%的置信度确認它是2,這在人是不可能發生的,為什麼機器會發生,因為機器去認識這種0和1,不是根據0和1本身的性質來認識,而是通過黑白分布的統計性質來認識它,因為這排噪聲跟2的統計是一樣的,是以才有這樣的錯誤。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

這個在模式識别上沒有問題,但如果用到決策就會出現大錯,它甚至可以把一塊石頭看成是馬。這個問題非常嚴重,也就是說深度學習區分的是重複的模型,但大腦區分的是語義的特征,這兩種區分有本質的差別,但是有關聯。

2)第二個,生資料帶來的問題。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

大資料有很多好處,其實大資料帶來很大問題。我們現在大資料跟以前的大資料不一樣,大量的資料是生資料。我們看網絡上傳來的資料都是摻雜了很多噪聲,有騙人的,有各種垃圾,這種資料叫生資料。大家看下機器對于生資料和經過加工的資料的魯棒性表現相對很差,不像人。

如果我們用右邊的圖去訓練這個神經網絡,它能很好認識的貓;如果用左邊的圖,它很難認識,因為它不知道貓在哪兒。這個吳教授在我們學校做報告的時候,我跟他開玩笑說,你老說你的好成果,不說你的毛病,它為什麼能在貓臉與人臉的識别上都識别地非常好,因為它用訓練例的時候,是經過精心挑選的,沒有背景,沒有經過加工。是以,這三樣東西的識别都做地非常好。但如果正例、負例都随便取,那它的識别率隻有百分之十幾,幾乎不認識,可見機器跟人的認識形式是很不一樣,它非常不魯棒。

3)第三個,推廣能力,領域遷移。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

這兩種方法都是就事論事,都很難推廣到不同領域,這就是我們的挑戰。我們要從一個弱的智能到通用智能,必須要克服這種困難,如果解決這種困難,目前來講兩個解決辦法。

1)一個辦法,是人工智能的這兩個方法結合起來,因為這兩個方法是互補的。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

因為知識驅動跟語義挂鈎,是了解;資料驅動是黑箱的方法,不了解,但可以保持從資料中提取模型。那麼,前面那個必須有人工做模型,這個地方關鍵在哪兒?知識驅動方法是用離散的符号表示,深度學習是用高維空間裡頭的向量,這兩個東西我們如果能把它 “溝通” 起來,就會把人工智能推動非常大地一步,現在世界上很多機構也在做這件事。

2)另外一個辦法,就是回到神經網絡的本源。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

它是根據神經網絡和深度學習借助于人腦神經的工作機制來形成的,人的神經網絡有一套辦法,這套辦法可以借鑒到現在的人工神經網絡來,這個工作,世界上也有很多機構在做。

我們一般把計算方法、深度學習,這兩個東西如果能夠溝通起來,現在主要做的溝通,這兩個方法結合起來就會把人工智能推廣大大的應用。

第二個,我一個文本看起來洋洋灑灑數萬頁,我為什麼知道這裡面說的是什麼,因為不同局部的,我怎麼從局部的資訊,把它整合成為全局的認知,這個大腦裡面也有一套辦法,這裡面也涉及到很多研究。如果我們把這些研究移植到這個地方來,把人工智能往前走一步。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能
CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

現在對計算機有這麼幾個批評,一個你能耗太大,大腦這麼大強,才25w,你這一個計算機得多少?另外一個批評,就是對馮諾依曼結構,人腦裡面是處理跟存儲在一起,你處理跟存儲分開,是以對對現在的計算機說三道四。

我想給大家吃一個定心丸,現代的計算機,我們這個人工智能學會(裡的人)還是可以靠它維持很長時間的。首先,現在大家讨論最熱的一個是個量子計算、一個是類腦計算。大家不要量子計算一出來現在的計算就不行了,不對了。因為量子算法,目前隻有一個算法,它就是因子分解,它可以把指數變成多樣性,其它的都沒用。其它的,這個計算機即使它出來,隻有涉及到因子分解那些算法,它有可能加快,其他它目前還沒有算法,算不了。是以量子計算機現在絕對代替不了現在的計算機,就像量子通訊代替不了現在的通訊一樣。

我想給大家吃的第二個定心丸,現在講的類腦計算,正确地講叫brain inspired computer,而不是brain like,大腦你都不知道什麼樣子,你like誰呢。

如何建造計算,實作人工智能的兩種途徑,計算機方式或者學大腦的方式。資料提高了,加一個網絡晶片,目前做這個工作的人基本上都得保留一些馮諾依曼架構,不能把馮諾依曼立馬取消了。當然也有人直接從右邊往左邊做,這個是屬于基礎研究的一類,我們要做的話,這個類腦就需要學科的交叉,我特别推薦要數學、認知科學、心理學、神經科學和語言學等。

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

最後說一下,人工智能究竟有多大的希望呢?取決于我們對認知的世界的認知,取決于我們對自身的了解多少?

CNCC 2016|清華大學張钹院士起底: 後深度學習時代的人工智能

好了,我們把我們對自身的了解分成兩個部分,左邊部分是“我們知道we know”,右邊那部分叫做“我們不知道”,是以我們把它畫大一點。

我們知道的東西的白色的部分,這就是“我知道的知道”,這就是知其是以然更知其是以然,這就是白盒。(we know what we know)

比如說下國際象棋,就是我們能說清楚,我們知其是以然,又知其是以然,這個用傳統的人工智能模型可以解決它。

我們知道的下方黑色部分,是“我們不知道的知道”。( we don't know what we know)。

這是黑箱,感覺就是這樣,我們知其是以然,不知其是以然,我們知道那是張三,但我們說不清楚張三鼻子多高眼睛多大,那怎麼辦,用深度學習。

從黑箱到白箱中間有個灰色地帶,好多問題有的說清楚,有的說不清楚。最典型的就是圍棋,圍棋有一部分能說清楚,而象棋都能說清楚,馬為什麼這麼走,卒為什麼要向前走,圍棋絕大部分一顆白子為什麼要落在這個地方,大師也說不清楚,他會說這是我的棋感。

棋感怎麼做?這就是alphago的重大貢獻,把棋感當作模式識别來做,你看到這個版面以後,你就應該知道怎麼落子,這個版面就是一個模式,現在我們現在可以說,大師下圍棋下得好,不是因為它太聰明了,而是他的模式識别能力非常強,棋子有一點點變化,他就知道變了,就知道我的政策要變,這個就是用傳統模型+深度學習,alphago就是這麼做的,蒙特卡洛搜尋+深度學習。這就是我們不知道的知道。

還有藍色的部分,我們是不知道,但是我們(清楚地)知道我們不知道。(we know what we don't know)

比如情感、意識等等,這個也能夠用深度學習的方法來模拟,至少做到表面模拟。人工智能能做的這麼多,這就是人工智能的厲害之處,為什麼大家注意到,過去除了白色的部分,其它部分我們都不能做,人工智能卻能夠做這一切。

但是唯獨黃色這部分,我們都不知道我們不知道。(we don't know what we don't know)

我們都不知道怎的情況下怎麼做呢?腦科學研究覆寫了所有,是以,我們的資訊是建立在這個基礎上,我們不知道的我們不知道,變成我們知道的我們不知道,再把它變成我們知道的我們知道。傳統的算法隻占在白色部分的一小部分,也就是說可以建立數學模型的問題,是以,我們為什麼說人工智能寄予這麼大的希望,原因就在這兒。

我就說這麼多,謝謝大家。

本文作者:宗仁

繼續閱讀