賈佳亞是香港中文大學終身教授、騰訊優圖實驗室聯合負責人、騰訊傑出科學家、IEEE Fellow,是計算機視覺領域著名專家,由他創立的圖像濾波和逆向視覺問題解法已經被許多高校教科書和開源視覺代碼庫收錄,同時也在視覺商業系統中得到廣泛應用。在今年上海召開的市北•GMIS 2019 大會上,我們邀請到了賈佳亞教授,分享人工智能多模态的現狀、挑戰和未來。

人工智能領域學科發展現狀
之前很多媒體、投資人、各類公司的創始人大佬問我一些問題:人工智能發展到現在,大家從不知道到知道,再到後來知道它有局限性、有發展性,那人工智能現在處于什麼階段呢?當我們對人工智能比較樂觀的時候,這個樂觀的心态能夠走到哪一年?如果我們覺得比較悲觀,發現很多問題人工智能其實做得并不好,那麼我們應該怎麼看待這些悲觀的情緒?當很多學生選擇以後職業,甚至選擇以後自己想做研究所學生或者從事教育工作、研究工作的時候,他是不是還要以人工智能為核心?
其實我對這個問題有很長時間的思考。我在不同場合講了很多我對這個問題的了解。這個月我真正整理了一套我自己的觀點。
我到底怎麼看人工智能的路向?它最基本、最核心的問題是什麼?我們怎麼能夠看到人工智能接下來是不是還有 10 年、20 年,甚至 50-100 年的發展?這是非常長期的觀點。今天我給大家介紹一下我自己的看法。
首先是發展現狀。這個發展現狀很有趣,我們來擺事實講道理。這個事實就是,我們看到一個很簡單的現象:過往五年 CVPR 投稿和接收論文的數目,這幾年裡每年 CVPR 投稿的數目以 50% 的速度增長,今年投稿數是 5000 多,預計下一年應該是 7000 左右的投稿數目,這意味着有非常非常多的新研究人員加入,中國這一塊的力量是非常巨大的。我們再看另外一個自然語言處理頂會 ACL,ACL 這兩年論文數量增長速度也非常快,今年比去年增長快一倍的重要原因是自然語言處理突然出現了井噴,比如一個算法的突破(如 BERT)導緻大家覺得很多問題可以開始解決了,對自然語言處理的了解問題可以比原來做得好很多倍。
上圖右面是今年 CVPR 的關鍵字,比較顯著的字如圖像 (image)、檢測 (detection)、識别 (recognition)、深度 (deep) 等,但是在一個非常小的你根本看不見字的小框框裡面是什麼?是 language,是文字、語言。這個不是機器學習發現的,這個是人肉學習發現的。然後我們再看自然語言處理頂會 ACL 的關鍵字,有 neural、learning、model、text,絕大部分的論文都是有關這方面的内容,但是我們仔細看看裡面一些非常不起眼的地方,原來這裡面有一個很小的詞——visual。
這張圖說明了一個非常有趣的問題。各個領域的人工智能在蓬勃地發展,每個領域都覺得自己做得很有意思。但是這些領域基本上是分離的。這個觀點可能以往很少人提出。實際上在這些領域裡面,雖然大家覺得人工智能是一個整體,其實并不是,現在看起來人工智能是分隔的孤島。人工智能的每一個子產品,比如視覺是一個孤島,自然語言處理是一個孤島,聲音也是一個孤島,等等。
然後我們再看 ACMMM。這是一個交叉學科的會議,領域融合應該做得還不錯吧。我們可以看到絕大部分的詞是 learning、vedio、image,看起來已經是多媒體的東西,但是你仔細看這裡面隻有很小一部分是關于音樂 (music)、文字 (text)、聲音 (speech)。這說明這裡面的發展是不全面的,不是我們想象的那樣人工智能蓬勃發展導緻整個領域發展是以一個口徑或者以一個方向在往前走,其實并沒有走到這一步。
我們看看原因是什麼呢?很簡單,任何一個技術的發展都是以單點突破為基礎。
從 1997 年的深藍慢慢發展到 2014 年的人臉識别,到 ImageNet、AlphaGo、德州撲克、Dota2。其實這些都是單點突破,也就是說人臉識别算法不能用于下圍棋,下圍棋的算法不能用于打遊戲,這些算法都是單點突破,當然這也是很正常的。
我們早期在做計算機研發的時候,每一個計算機的每一個子產品都要單獨研發的,比如說顯示卡、CPU 有專門廠家研發,晶片組是另外一些公司在做,還有系統是另外的公司在做。這些也都是單點突破,但是突破之後到現在把它們整合到一起,發現原來個人家用電腦,我們現在所用的伺服器或工作站已經很強大了,這是因為單點突破做得很好。毋庸置疑需要走這一步。
人工智能學科發展與人類智能差距還很大
單點突破已經做了這麼多事情,但實際上整個人工智能的發展離真正的人類智能整體發展差距相當大,二者的差距之一是多模态資訊的智能化了解,到現在為止很少有專家系統化涉獵這個領域。
為什麼會出現這個問題?
我們首先看看人類智能是怎麼發展的。人類智能的發展需要 sensation。特拉維夫大學心理學院院長塞爾瑪·洛貝爾在著作《Sensation: The New Science of Physical Intelligence》中表示:「對世界的感官體驗不僅能對我們自認為理性公正的思維産生影響,還會左右我們所謂的自主思考能力」。人類對世界的感覺系統是非常嚴謹而複雜的。
但是,現在機器學習還沒有做到這一步,其中有一個重要的點。我們看看人腦分布,人腦是一個整套的系統,你不會覺得把人腦中間某一部分切除還可以愉快地生活。
人類大腦涉及很多部分,有聽覺部分、嗅覺部分、說話部分,還有抽象思維能力、動作控制,以及味覺、language。人腦系統是一個整體系統,你去除哪一部分,可能其他部分工作得也不好,但是人腦這套體系在現有人工智能的架構下是不存在的。現在世界上還沒有任何一個體系、任何一套人工制造的系統具備如此多功能的子產品,同時又整合在一個整體裡面,能夠交叉互動。
我們看到人腦已經有這麼多資訊處理的功能,有這麼多的感官,那麼人造資訊實際上有更多的可能性。
比如說人的眼睛看到可見光,但是在人造的資訊裡面,可見光是非常小的一部分。在科學探索、實驗儀器裡面,視覺領域除了可見光,還有微波、紅外線、紫外線、X 光等等。在聲音裡面,除了我們人類聽到的聲音之外,還有超音波、次聲波、地震波等通過現代機器探測裝置聽到的聲音。此外我們還有符号語言,比如圖表、程式設計語言。除此之外還有嗅覺、觸覺,這兩個領域基本上還沒有研究,你不會碰到一個人說我研究嗅覺的,現在大家還見不到這樣的專家學者。
說到這裡大家明白了,我們現在要做這麼多事情,實際上我們現在研發的每一個單點的突破,即使是我們認為了不起的下圍棋、打遊戲方面的突破,其實都是非常小的,隻是人可以做到的事情中的很小一部分。實際上人最強大的地方就是能夠把各種各樣的能力捆綁在一起,做一個統一輸出。就像我們賣産品一樣,要真正壟斷一個行業,必須把所有垂直的産品都包括了,去建生态。其實人的大腦已經把這個生态建好了。
多模态人工智能的基礎難點
那麼多模态發展的基礎難點是什麼?機器要想做到人這樣的功能,還存在很多問題。
資料模态多種多樣
第一個,我們要接受這麼多的資訊,有圖像、模型、結構化資訊、文本、聲音,那怎麼把這些東西融合起來?融合起來的過程一定是很需要的,肯定要融合。大家覺得目前哪一個産業跟多種信号的連接配接是最相關的?很多人覺得是機器人産業。不是,機器人離我們很遠很遠。機器人是一個玩具,根本實作不了我們要做的任何事情。我一直說,如果機器人達到能帶小孩的地步,那說明确實人工智能已經足夠強大。但是我覺得在 20-50 年内,未必能看到這一天。
我覺得,把多種信号融合在一起跟我們最相關,而且接下來 5-10 年就能看到的領域,是汽車。汽車真正需要聲音,需要多種符号、文字,汽車是我們每天都在使用的工具,同時它又具備了外部的感應器、内部的感應器,車的處理能力也會越來越強大,加上 5G 的技術,我們還能夠通訊,車可以像人一樣互相交流。汽車行業可能發生翻天覆地的變化。我的預測未必正确,但這個比機器人更靠譜一些。
我們還有很多無法量化的資料,就相當于沒有數字化的資料,是很難很難處理的。你可以想象,計算機全部是 01 處理,現在沒有 01 時候的時候怎麼處理呢?比如說嗅覺,什麼叫香,什麼叫臭,什麼叫好聞。還有味覺,哪個好吃,哪個不好吃,你喜歡酸的還是甜的,為什麼有的味覺會改變有的不會改變。以後想創業的同學,大家應該多想想這方面,這裡面還是有很多創業機會可以挖的。
多模态資料不對應
基礎難點還包括多種問題,比如多模态資料不對應的問題。我們看到一幅圖像後,可以用很多文字形容它:放風筝的小女孩、在草地上穿着白色裙子放風筝的小女孩、在翠綠的草地上,穿着白色裙子,紮着兩個辮子,開心的奔跑的放風筝的小女孩。這些都沒有錯。這很明顯是一年級、三年級、五年級國小生寫的東西,你能感受到寫作層次不一樣。
同樣道理,我們看到一句話,然後去尋找它所對應的視覺資訊,你會發現這些資訊也是一對多的。到底怎麼去解決這個問題呢?怎麼完整地定義多模态資料不對應的問題,并解決它?
多模态資料的融合
還有一個問題是多模态資料的融合。像剛才說的,假設機器人實作智能化還有非常長的路要走,但是在過程中間我們要公關的問題是什麼呢?比如你對機器人說「請給我去卧室拿桌子上左邊的瓶子」。很簡單的事,每個人都會做,可能兩三歲小朋友都會做的事情。他知道什麼是瓶子什麼是卧室,就過去拿了,可能中間會灑掉,可能會把瓶子摔了,但是這并不妨礙他拿到瓶子。
而如果是機器人的話,中間有很多的步驟要做。首先要建構語言模型,要三維模組化,還有自動導航,不然機器人哪知道怎麼走到卧室。最後是圖像分析,什麼叫桌子、什麼叫瓶子、瓶子有多大、裡面裝了什麼東西、怎麼拿最好。這些都是不可避免、一定要解決的人工智能問題。
最後機器人還需要監督。機器人做這麼簡單的事情就有這麼長的鍊條要處理,那每個鍊條出錯了怎麼辦?假設鍊條一語言模型做錯了,機器人聽錯了,聽成「把我的被子搬出來」,然後找了半天發現桌上沒被子,最後把桌子搬出來了,這個是不能接受的。那你回去要監督它,告訴它這件事情做得不對,你以後不能做這件事情,什麼時候該停止,該怎麼做,這是個監督問題。這裡涉及到語言模型怎麼監督,涉及到非常複雜的單點突破,也就是說語言模型首先要單點突破。
再往下 3D 模組化,今天房間是這個樣子,明天比如家裡人把桌子給移了位置,3D 模組化變形了,桌子找不着了,那機器人還能不能找到桌子?這是另外一個監督問題。第三個自動導航的時候,當裡面空間變化時要怎麼辦?做錯了怎麼辦?最後圖像分析裡圖像了解的問題,分割、檢測、3D 點雲分布問題。
這其實是個很簡單的問題,剛才說到的帶小孩的問題難度遠遠超越這個,應該是一萬倍以上。而這個簡單的問題實際上也非常難做。是以現在絕大部分的機器人基本上都是做一些非常簡單的操作,跳舞、唱歌、眨眼等,大家覺得機器人能做到這一步已經很開心了。但是大家可以設想以後機器人的發展,發展空間是非常之巨大的。
騰訊在多模态人工智能的初步探索
立足于騰訊,我們做了非常多有趣的探索。
我們看一下這個視訊(見前文視訊),我想問問有多少人知道視訊裡這個小哥哥想要表達什麼内容?沒有是不是?這個視訊我已經在超過十個地方給不同場合的觀衆示範過,基本上大家知道這肯定是手語。但問到具體内容是什麼意思時,沒有一個人答得上來。今天給大家講的就是,我們在實驗室裡面做了一件非常有趣的事情,做了一個手語翻譯器。
為什麼做這個事情?
給大家看看資料。我國的聽障人士是 7200 萬,占全國總人口的 5%,全世界有 4.6 億的人有殘疾性的聽力損失,超過全世界人口的 5%。這兩個數字非常巨大,但是我們從來沒有意識到。你打開朋友圈,随便挑 20 個人出來,你能找到任何有比較嚴重聽障問題的朋友嗎?基本是沒有的。
把這個數字再擴大一點,你挑一百個人出來,這一百個人裡面有任何一個人有聽障問題的嗎?基本上也沒有。這個事情說明什麼呢?其實我們在做這件事情的時候,當我們想深入解決這個問題的時候,突然發現一些問題是多麼的嚴峻,我們普通人接觸到的社會跟另外一群人看到的社會是不一樣的。因為你在自己身邊找不到任何一個有這樣問題的朋友,這也意味着你的朋友在他的朋友圈裡也找不到這樣的朋友。
這個問題推演下去,你會發現普通人和弱勢群體這兩個群體通常是互相隔絕的,完全沒有交集。這是非常可怕的事情。我們後來想去做這件事情的初衷是做了一項調研,調研結果非常令人震驚。我們突然發現原來這樣一件事情好像有很大需求,比如我想了解手語,沒有一個普通人了解什麼叫手語。這就導緻有聽障問題的朋友實際上沒有辦法跟路上碰見的任何一個陌生人交流。最後兩個圈子就完全隔離開了。
我們在做這件事情的時候,肯定要有資料。大資料是很重要的,在收集資料的過程中,我們想到手語資料不是有很多嘛,中央電視台下面經常有一個小人在比劃。我們去問深圳手語學校的老師和同學,他們說我們看不懂中央電視台的手語。這說明什麼呢?說明手語是有方言的,到現在為止中國手語沒有統一标準。也就是說我們在深圳學到的手語和在上海學到的手語是不一樣的,是沒法溝通的。比如我從深圳過來講的演講,從全國各地趕過來的朋友們都能聽懂我的講座。但是你要聚攏一幫來自五湖四海有聽障問題打手語的朋友,他們是沒法交流的。你突然發現資料非常難搜集,因為中國現在沒有一套統一化的手語規範。
另外為什麼做這個事情?像我們每一個人輔助一位孤寡老人,送雞蛋什麼的,這個實際上能做的事情太少。我們希望通過大公司的平台,通過技術的力量發動大家對弱勢群體的關心,比起個人力量,這個影響力是幾何級的擴張。
這裡面有很多的問題。但是你看技術本身,它就是一個大資料弱監督的手語識别解決方案,中間涉及到非常多需要解決的問題。
既然講多模态,你會發現手語翻譯器在技術層面上也不簡單。除了剛才說的資料問題和國家标準問題之外,我們發現原來手語涉及到很多模态的了解。它需要手指姿态識别(圖像模态),然後是動作識别(時序模态),然後語義轉化(模态轉換),最後語言模型(語言模态)。
比如這個例子:
首先我們需要做一個非常精準的人體骨骼特征抽取,抽取完特征之後再轉換成語言模态。
這個序列變成一個字,另外一個序列變成其他字,然後再把它合起來。每個字可能單獨看起來都不是特别有意思,但是合成一句話之後就是語言的融合。也就是說從單點的每一個詞變成整體的可了解的語言,又是一個這樣的技術過程。最後我們把整個序列變成一句話,就得到一個結果了。
下圖展示了大緻流程,也還是蠻複雜的。
我們最後做了一個界面。剛才我們看不懂的那段話(手語),手語翻譯器可以識别、了解,并把每個字打出來,當你看到每一句話的時候,你可以做回報,回報也會被變成手語,被傳遞給對方。這個翻譯器真的是有趣的,當你覺得外語是很難的語言時,我想說的是手語對我們社會是非常重要的,也是需要的工具。
我們在這個過程當中解決了很多多模态的事情,做了很多的研究工作,現在還有很多問題。
即使是在簡單的語言和圖像多模态裡,資料也是非常不均衡的。通常大家看到這張圖像會問圖裡有沒有長頸鹿,但是沒有人問有沒有羚羊。你會發現,這兩種句子的問答是完全不一樣的。
當然裡面還缺乏多模态的監督。比如中間這張圖裡沒桌子,你問桌子是什麼顔色,它隻好找到燈籠,然後回答是紅色。
此外還有很多視覺問題沒有得到很好地解決。這麼多人擠在一塊的時候,你如何把每個人分割出來,視覺問題也是很重要的問題。
我們還做了很多事情,比如我們在騰訊視訊裡,在騰訊整個内容平台上做了非常多交叉融合,在落地上也做了非常多。比如我們通過視訊内容、圖像内容、标題内容得到非常多的精準了解。
最後看多模态在落地方面也是有非常大的應用,除了剛才提到的機器人,它在内容平台上也是非常重要的。
多模态的未來發展
關于多模态未來的發展,我覺得首先要解決難以量化的東西,比如嗅覺、味覺、觸覺、心理學。這些 AI 完全沒法涉獵,沒有辦法真正地介入其中。現在誰能夠打出第一槍,能把這件事情做好,我覺得也是很有意思的将來,大家可以将它作為科研或者創業的一個方向。
大家看這張圖,能想到氣味對不對?那怎麼通過多模态把不可能存在的計算變成可能呢?
比如你發現原來第一個是「芬芳」,第二個是「香醇」,第三個是「香噴噴」。這些詞在你的腦子裡立刻被轉換成一種感覺。那怎麼去表達那種感覺呢?我們是否可以通過多模态計算使得非量化的信号得到計算。比如「芬芳」減去「香甜」小于「芬芳」減去「惡臭」。這個我想大家能夠了解。但是要讓它在計算機上變成可計算,還需要看看怎麼去量化裡面那些标準。
多模态裡有非常多的問題,是以我們引入了非常多的其他方法,transfer learning、domain adaptation、few/one/zero-shot learning 等方法都是比較好的研究方向。
我們可以看到一個人笑了(見上圖),我能讓一隻貓也笑起來,這是一個著名的 adaptation 問題。我們把人的笑臉轉化到貓臉上,貓其實不會笑的,這是轉化後的效果。這也是其中一個非常有趣的應用,也是 domain adaptation。
最後,人工智能這兩年的進步非常巨大,非常震撼,讓每一個研究人員、開發人員、創業者、企業的同僚都覺得人工智能是将來。我也覺得人工智能路還很長,但是其中一個重要的方面,即我們怎麼去把多種形态的信号、多種不同種類的輸入結合起來,讓機器得到對事情更加全面的分析,然後做出決策。這是在大資料或人工智能裡面現在還遠遠未解決的問題。
我覺得,大家不要過分樂觀,但是也不能過分悲觀,這條路至少還要 10 年、20 年,甚至更長的路要走。我相信在這個過程中會誕生一系列有趣的工作、研究成果,甚至新的創業形式和産業形式。我希望大家對人工智能保持謹慎樂觀的态度,之後在政府産業級的扶持下面,在公司及企業級的投入下面,還是會有新的産出出來。謝謝大家!