
今天談一談智能駕駛。我講一下智能車做好了怎麼測,怎麼使得它具有拿到駕照的水準。我報告的題目是《無人駕駛的圖靈測試》。
做什麼東西要把評測搞清楚。怎麼測,我們一直講智能代理,智能代理或者認知它的方法是什麼?阿蘭• 圖靈先生在他年輕時就在想這個事情,他提出了圖靈測試。幾十年過去了,人們已經把圖靈測試研究透了,有人說圖靈測試漏洞太多了不好測;有人認為圖靈測試做了很大的貢獻。直到今天,人工智能經過兩個寒冬以後,我們看人工智能帶來的變化。首先是腦科學,然後是認知心理學,接着是神經生物學。這三個學科對于人智能的啟發更大一點,我們把它們叫做腦認知。腦認知啟發的人工智能就是目前研究的對象,這一塊怎麼測,按照圖靈的說法,拿對話來測,用一個人和一個機器人對話,看看我們能不能知道它是人的聲音,還是機器的聲音。聽起來很簡單,但是有多少智商。比如你回答問題時是否得體、交談時帶不帶情感;你是沮喪的溝通,還是愉悅的溝通,是以這件事情并不那麼簡單。
1950年圖靈寫了一篇文章,可以看出來,圖靈測試本質上就是互動智能的測試。一直到2014年,聊天機器人尤金•古斯特曼釋出了。還有做詩,給你一個上下聯對橫批,分别不出來是人做的,還是機器人做的,是不是可以說這是圖靈測試。但是有一個問題,你的打油詩是水準很高的詩,這個智能是怎麼測試的。今天上午微軟報告特别強調了在語音方面的智能處理;麻省計算機實驗室做了一個機器制作的聲音的實驗,把物體碰撞的不同聲音,把一個特定人的聲音讓機器人産生,達到了以假亂真的目的。如果我們用大資料、用深度學習訓練一個機器人,讓它達到某個特定人的說話水準,它發出的聲音就是虛拟組織的聲音,這個事情我們以前表演過,我記得科大訊飛做過這樣的示範。
還有一個很重要的事情,像中國小生寫作文,有一個批改網,10 000人、100萬人同時寫一篇文章,看看哪篇文章拿冠軍。這時候有機器人閱卷,跟人的閱卷有什麼差别?怎麼樣實時地互動,批改這個作文?怎麼樣打分?還要形成評語,都能達到以假亂真的程度。是以,圖靈測試又被提上了話題。尤其重要的是,最近全世界都在做智能駕駛、無人駕駛,駕駛驅動的圖靈測試怎麼測。如果我們在路上看到一台汽車,你是否分辨不出是機器人開的還是人開的?你是否分辨不出一個新手或者是老司機?是A駕照還是C駕照?圖靈測試在後圖靈時代已經進入了我們的生活。
谷歌公司是無人駕駛的領頭羊,2015年就聲稱跑了100萬英裡,達到人類75年的駕齡。但是遇到了一個最基本的問題,無人車上路怎麼樣獲得駕照,駕駛認知度量已經成為交管部門當務之急的問題;對我們科技工作者來說,腦認知如何度量,這是一個非常重要的科學問題。假如我們把圖靈測試的這個人變成一個自動駕駛儀,你差別不出是智能駕駛的汽車,還是無人駕駛,那能不能叫圖靈測試?如果測試者坐在直升飛機上,看交通流,車子往前走,你差別不出哪一輛車是人開的,哪一輛車是機器人開的,可不可以說就達到了人的水準?圖靈測試進入日常生活,進入尋常老百姓家已經不奇怪了,這裡列出了一大堆需要我們識别的測試。比如網上聊天機器人,你用語句搜尋,它把答案變成語音還給你。因為出現了搜尋引擎和語音智能的發展,使我們随時可以聽到聲音,這到底是人跟我們聊天,還是機器人跟我們聊天;是機器人跟我說話,還是人在說話;是機器人在翻譯,還是人在翻譯,是以這就涉及到圖靈測試的問題。遠端醫療把我們可穿戴的傳感裝置、把你的實體參數送上去以後,它給你開的藥方,怎麼知道是專家開的,還是機器人開的;你在家裡時,孩子在網上做輔導或者咨詢,你怎麼知道這個輔導老師是人,還是機器人,等等。是以,圖靈測試進入日常生活,人類已經進入後圖靈的圖靈測試。無論是機器對話、機器寫詩,還是自動駕駛,有一點必須堅持,那就是允許測試者現場監督和互動,測試者可以現場改變紅綠燈,看看車能不能停下來;可以制造一個幹擾的汽車障礙,看看能不能避障。是以現場介入的互動是必須的。我們拿駕照時,當你路考時,同樣兩個人,水準差不多,一個人拿到駕照了,一個人沒有拿到駕照,考官說你不行,你剛才超車時頭沒有往後看,我們規定頭要往後看的,是以下次再考;但是你态度好一點,你記住了,這一次過了就可以了。是以我們認為,圖靈測試本質上盡管存在客觀性,但是必然帶有主觀性,如果一個駕駛員老不合格,這就會受到質疑,何況駕照還可以收回,是以對圖靈測試應該用這樣的觀點來看。
駕駛圖靈測試的現實意義非常重要,随着機器換人時代的到來,有這樣一個問題,相比較而言,汽車自動化程度比較高,一個駕駛員怎麼樣通過方向盤油門的動作改變習慣的,常年考駕照的測試,已經積累了豐富的經驗,駕駛圖靈測試可以成為圖靈測試的起始點。汽車工程師學會有一個非常自動駕駛的等級區分,分成L0~L5,上面兩個是人駕駛,下面三個是機器人駕駛。有的廠家宣稱我要做L4的自動駕駛,有人說我隻能做L3。我覺得輔助駕駛挺好,是以有一個問題,就是圖靈測試的問題。自動駕駛的等級轉換點如何度量?掌握權交界點如何度量?5級分類可操作點在哪裡?要規定100個駕駛視窗還是1 000個駕駛視窗?這還真是一個問題。我們在北京可以看到很多特斯拉的車,有的賣80萬,有的賣120萬,你問駕駛員你自動駕駛了嗎?基本上沒有。因為特斯拉聲稱是L2等級,需要駕駛員的手放在方向盤上,保持注意力,如果不這樣幹,出了事還是駕駛員的。蘋果公司在加州測試是1 000英裡,0.2次幹預,也就是北京到深圳來回一趟隻幹2次,是以圖靈測試的問題是一個現實的問題。
人的智商到底是怎麼樣表現的,生物學家告訴我們,在微觀、宏觀次元上有不同的表現。比如,當我們看台子上寫的人工智能,你腦子裡的興奮區也許在這個地方;當你耳朵裡聽到人工智能這個詞興奮度在這個地方;什麼也沒有聽說,你自己想,興奮區就更多了。是以告訴大家,記憶很重要,一個駕駛員頭腦裡記錄了多少場景,能夠應付多少事件,怎麼學習的,這點很重要。再一個,當你看周圍場景時,駕駛員是有選擇性注意的,同樣一個場景,小孩子和一個經驗駕駛員看,注意點是不一樣的。我們很多人都做機器視覺,有人說是計算機視覺,确切說是圖像的處理和了解,我們叫做先視後覺,它無特定的任務驅動,是以我們進行分類、聚類,進行一些識别,形成一個全局的認知,現在很火。但是人類認知難道都是這樣的嗎?不是的,因為我們在做無人駕駛時,有一條堅定的信念,叫做傳感器不完美,是我們确定的一條原則,不要想着哪個傳感器是完美無缺的,分布在車體各部位都認為看到了全局。生物視覺和機器視覺的差别,觀而不覺,無視後覺,邊視邊覺,先覺後視。生物視覺選擇性注意當中,我們經常聽到,大範圍優先,或者大尺度有限。當你看一幅圖時,大圖很重要,細微的地方并不重視,這是優先點不重要。還有,當你看到一個圖像時,掉下來的部分你很注意,這是一個圓的、方的、長的,還有一種差異優先。我們的問題是,在選擇注意力時,這幾個問題碰到一起到底誰優先。我們研究的結果認為,真正的是記憶優先。你頭腦裡記憶的東西對目前情景會發生很大的注意,上午很多人研究感覺的智能,沒有人研究認知的智能,對不起,我們就在研究認知的智能。腦認知的主要外面表示在如何聽說和如何看;腦認知的内涵是想,想的時候有記憶認知、計算認知和互動認知三種認知。我在一個場合說了一點計算機負面的話,我們人類對計算機的追求有一點貪得無厭,現在這麼快,我們還要更快,但是我們沒有用精力研究記憶和互動,這是一個遺憾。我們在研究計算的同時,應該花更多的精力研究記憶和互動,這才是受腦認知啟發的人工智能。
我們認為,人類認知沒有你想的那麼複雜,用一句話、一件事情反複地裝進你的頭腦裡,你就形成了自己的認知。記憶是腦認知的核心,遺忘是人類智能的顯著表現,沒有遺忘腦子将不堪重負。神經生物學家告訴我們,人類記憶是分區的,瞬間記憶,工作記憶,場景記憶,有不同的劃分的區域和方法。遺忘是對記憶的不能再認和回憶,是以我們應該研究遺忘、記憶和存儲。認知過程可用卷積表征展現出來。我個人定義了一個很重要的公式,記憶是認知函數和遺忘記憶的卷積。我提出用認知學的實體方法研究人的遺忘,一個圖檔怎麼實作遺忘的?在你的記憶裡怎麼恢複的?這件事情應該下決心研究清楚。感覺記憶是非常豐富的,但是也是瞬間的;工作記憶是在海馬體裡面,它和學習有很大的關聯。大腦皮層的記憶已經被抽象化了,是以人工智能的學者不能簡單研究計算,還要研究記憶;不但要研究學習和遺忘,還要研究三個不同記憶區的劃分方法。要研究工作記憶和場景記憶,怎麼樣幫助目前的瞬間感覺?人腦的計算沒有什麼複雜的變化,就是一種相似計算,是我們複雜化了。互動是腦認知的重要形态,互動的力度不一樣,各有各的不同,怎麼樣實作轉換?人在神經網絡互動的同時,還有與外面世界的互動,獲得心得感覺,是以互動隻有二重性。對于無人駕駛來說,你要從人的駕駛認知必須回答的問題,人腦是如何定位的。大家都知道,做無人駕駛最難的技術,就是實時定位,我們把大的坐标系叫做上帝坐标系,每個人看的都一樣,我們的智能體是以它為基礎的認知,是以我們提出對周邊環境進行實時定位,以及影射,這樣才能知道我這輛車目前應該在什麼地方采取什麼動作。語言我們認為是圖像認知在不同抽象中的語義标注,要構造不同尺度連接配接組的,三位一體的多個多層的卷積網絡。
這時候我們看看計算機的局限性,計算機最主要的是CPU,腦認知的單元每層都有記憶智能、計算智能和互動智能,這樣才能建立起來。我們的觀點和特斯拉不一樣,和谷歌有差別,和英特爾也有不同,我們認為八個字——“無人駕駛,難在拟人”。無人駕駛不僅僅是車,不是做自動化就可以了,自動化遇到了天花闆,人工智能來了。
我們有一點感歎,現在的汽車可以做到100馬力甚至更高,但是汽車真的不如馬的認知,馬是認知主體,老馬識途,車不如馬。現在無人駕駛遇到最大的痛點就是最後1公裡,回不來。共享單車回不來,将來共享汽車,最後1公裡回不來,共享汽車的商業化用途就無解。是以要想實作無人駕駛為主的駕駛,最根本的問題到底是解決車,還是解決人。我們發出一點不同的聲音,如果做解決車的問題,就把車的自動化做好,我們做一個軟體定義的機器,實作無人駕駛;如果解決人的問題,那就必須具有記憶、決策和行為能力的認知主體,進行自主駕駛,一字之差,差之毫厘。自動化學者和人工智能學者是有不同的觀點的。汽車的行為是由駕駛員決定的,無人駕駛難在拟人,是以我們要研究駕駛員行為學和駕駛員心理學。當在爆胎時,駕駛員的動作恰當嗎?我們要研究駕駛員的感覺、記憶、控制和行為技巧,而不是一味地改良車輛動力學性能,實作自動駕駛。
我們看看駕駛員的行為學和心理學,這張圖是在自動駕駛之前,在交通運輸裡就有的,專門研究駕駛員的行為學和心理學,分為感覺域、認知域和行為域。現在把感覺智能适應以後的結果演化成駕駛透視圖,通過深度學習或者算法,實作對方向盤和油門的控制;然後我們把駕駛員的駕駛技巧——怎麼樣省油,坐着舒服,就是有技巧的駕駛,怎麼樣使這個車子開的平穩。我們自然科學基金會組織全國八九次的比賽,考慮到裁判名額、圖靈測試的名額,我們檢測4個S,靠這4個S形成圖靈測試,拿出一個表,決定誰是冠軍、誰是亞軍。現在我們在做認知領域的深度學習,駕駛認知的核心是學習還是記憶,生活是記憶,駕駛也是記憶,駕駛員開車時都是在算賬嗎?是以記憶很重要,每次駕駛都會結合對過去駕駛的記憶。學習是什麼,學習是了解知識、形成記憶的互動過程;了解是資訊的認知或已有認知的結果;而記憶彌散在神經網絡之中。不去研究這樣的問題,做出的決策和結果出路不大。駕駛員的經驗和臨場處理能力必須由駕駛員自己替代。我們現在開始往記憶和互動上發展,當然計算也是很重要的。有的機關說我們做一個機器人作業系統,用它支撐駕駛員,作業系統ROS固然重要,但是它不能代表駕駛員。如果要說駕駛員的注意力,釋放駕駛員的認知,必須有一個物化駕駛員的認知。我們把特定的駕駛認知叫做駕駛腦,這樣一來就會注意力集中,永遠專注,永不疲勞,原來駕駛員發生的事故稱之為人類第一殺手,也就不再存在,這該多好。
駕駛認知。自動駕駛是機器駕駛,它物化了駕駛員的認識,實作了無人駕駛。我們想一想,自動駕駛如果是在地鐵比較好,因為鐵路是它的,還有網絡排程;如果是高鐵,也可以做自動駕駛,因為道路是封閉的,排程能力很強;如果是飛機也可以做自動駕駛,唯獨汽車不行。因為汽車是你個人的代步工具,它在開放不确定性的環境下,常常會遇到大雪、大霧、大雨。比如說冰雪,還有人為的紅綠燈失效、道路施工、車輛醉駕等,如果不具備處理這些能力,做自動駕駛可能難以勝任。有經驗的駕駛員、标杆駕駛員能夠靈活處置,自動駕駛車怎麼樣學習呢?這是我們研究的重點。一個小孩能夠成功抓住一隻球,這是計算出來了嗎?不是;是用了什麼算法嗎?也不是。一次又一次的學習、操練,久而久之,智能成為新的本領。我們認為,開車和學英語本質上是相同的,熟練的司機開車,如同自己走路一樣自然,開多了,不是每天都在計算。經驗駕駛員,不但要符合駕規,安全行駛,我們還要使車子坐起來比較舒服,從A點到B點怎麼樣舒服、省油,這也是駕駛員重要的技巧。是以,我們發明了一個單詞——Driving Brain,不同的人開車行為習慣不一樣,我們認為自駕車應該有個性,好像我們每個人開車都有個性一樣,如果你不強調開車的水準,我們可以找标杆駕駛員開車,這也是可以的。駕駛技能的習得通常通過認知、關聯、自主三個因素決定。如果像特斯拉一樣,把傳感器放在車裡,讓人工開車,開了兩年以後,拿回來一學習,再放回去讓它和你開車一樣。在路上的行為就成了自己的行為,人的感覺和車的行為達到了合一的境界,這是我們追求的目标。
我們十多年自動駕駛的生涯告訴我們,這件事情很重要,如果沒有的話,我們仍然會恐慌、迷茫,今天做的很好的,明天可能就做不好了。感覺認知和行為有一個比較好的回報過程,從動态感覺到态勢分解、到自主決策,這個期間場景記憶、功能記憶都起到很重要的作用。四類傳感器,分别是雷射雷達、攝像頭傳感器,還有車姿傳感器,還有GPS傳感器,這代表我們的感覺系統。而認知系統裡,既有駕駛技術,還有各種各樣的記憶棒;我們利用目前的駕駛态勢和時間序清單決策目前的認知,形成認知箭頭,控制車的動力和行為,這塊叫做小腦,因為它已經有駕駛技巧了,從感覺到認知到行動,再感覺到認知到行動。可先利用微電子技術,采用GPU+CPU+FPGA+ASIC機構,生産專用晶片和闆卡。2016年研發的駕駛腦V1.0,原來開始開車準備時間十幾分鐘,現在我們開車啟動時間隻要22秒。我們終于開始自己的發明,就是駕駛腦,它是給你拿駕照的,它是給你積累駕駛技能的,它是買路熟的,它是個性化駕駛和标杆駕駛,這些東西怎麼靠自動駕駛完成的?這就是我們在全世界自動駕駛的浪潮中發出了自己微弱的聲音。我們認為,人工智能的使命是加速汽車向人機互動的轉變。有了駕駛腦,有可能使汽車成為駕駛員自己,這是我們人類追求非常有理想、有意義的科技。我們很多人買聊天機器人,我們想汽車也應該是這樣的。智能駕駛專用實驗與評估環境,全國已經準許了7個實驗場,這很有可能發展成為賽車手和賽車機器人的賽車場。
機器人換人帶來一個新的行業,就是後圖靈時代,也許是人機共生、共融、共發展的時候了。如果人腦的特定問題域的認知能力可以先局部地得到解決,比如駕駛問題、寫作問題、學英語問題等;如果我們做一個流動大巴車,我們安排一個駕駛腦,安排一個聊天腦,不但會開車還會導遊,這樣下去,千千萬萬個特定的機器人認知腦,通過移動網際網路、雲計算和大資料,是不是可以倒逼變成一個通用的人工智能?或者強人工智能?我們一起來拭目以待!
(本報告根據速記整理)