張钹院士：邁向第三代人工智能（全文收錄）

作者 | 張钹中國科學院院士、清華大學人工智能研究院院長

人工智能（ArtificialIntelligence，簡稱 AI）在 60 多年的發展曆史中，一直存在兩個互相競争的範式，即符号主義與連接配接主義（或稱亞符号主義）。符号主義（即第一代人工智能）到上個世紀八十年代之前一直主導着 AI 的發展，而連接配接主義（即第二代人工智能）從上個世紀九十年代逐漸發展，到本世紀初進入高潮，大有替代符号主義之勢。但是今天看來，這兩種範式隻是從不同的側面模拟人類的心智（或大腦），具有各自的片面性，不可能觸及人類真正的智能。

清華大學人工智能研究院院長、中國科學院院士張钹教授在「紀念《中國科學》創刊 70 周年專刊」上發表署名文章，首次全面闡述第三代人工智能的理念，提出第三代人工智能的發展路徑是融合第一代的知識驅動和第二代的資料驅動的人工智能，同時利用知識、資料、算法和算力等 4 個要素，建立新的可解釋和魯棒的 AI 理論與方法，發展安全、可信、可靠和可擴充的 AI 技術，這是發展 AI 的必經之路。

自 2018 年成立以來，清華大學人工智能研究院本着「一個核心、兩個融合」的發展戰略，大力推動人工智能的基礎理論和基本方法的源頭性和颠覆性創新，在人工智能基礎理論、關鍵技術和産學研合作等諸方面取得了創新成果。人工智能的序幕剛剛拉開，正劇正在上演。基礎研究是科技創新的源頭，尤其在目前複雜多變的國際環境下，更需要提升大陸的原始創新能力，久久為功，努力實作人工智能領域更多「從 0 到 1」的突破。

以下全文刊載張钹院士的文章《邁向第三代人工智能》。

1、第一代人工智能

人類的智能行為是怎麼産生的，紐威爾（A.Newell）、西蒙（H.A.Simon）等提出以下模拟人類大腦的符号模型，即實體符号系統假設。這種系統包括:

（1）一組任意的符号集，一組操作符号的規則集;

（2）這些操作是純文法（syntax）的，即隻涉及符号的形式不涉及語義，操作的内容包括符号的組合和重組;

（3）這些文法具有系統性的語義解釋，即它所指向的對象和所描述的事态。

1955 年麥卡錫（J.McCarthy）和明斯基（M.L.Minsky）等學者，在達特茅斯人工智能夏季研究項目（the Dartmouth Summer Research Projecton ArtificialIntelligence）的建議中，明确提出符号 AI（artificialintelligence）的基本思路:「人類思維的很大一部分是按照推理和猜想規則對‘詞’（words）進行操作所組成的」。根據這一思路，他們提出了基于知識與經驗的推理模型，是以我們又把符号 AI 稱為知識驅動方法。

符号 AI 的開創者最初把注意力放在研究推理（搜尋）的通用方法上，如「手段–目的分析」（meanendanalysis）、「分而治之」（divideandconquer）、「試錯」（trialanderror）法等，試圖通過通用的方法解決範圍廣泛的現實問題。由于通用方法是一種弱方法，實際上隻能解決「玩具世界」中的簡單問題，如機器人擺放積木，下簡單的井字棋（tic-tac-toe）等，與解決複雜現實問題相差很遠。尋求通用 AI 的努力遭到了失敗，符号 AI 于 20 世紀 70 年代初跌入低谷。

幸運的是，斯坦福大學教授費根堡姆（E. A. Feigenbaum）等及時改變了思路，認為知識，特别是特定領域的知識才是人類智能的基礎，提出知識工程（knowledgeengineering）與專家系統（expertsystems）等一系列強 AI 方法，給符号 AI 帶來了希望。他們開發了專家系統 DENDRAL（有機化學結構分析系統，1965∼1975），随後其他學者相繼開發了 MYCIN（血液傳染病診斷和抗菌素處方，1971∼1977），XCON（計算機硬體組合系統）等。不過早期的專家系統規模都較小，難以實用。

直到 1997 年 5 月 IBM 的深藍（deepblue）國際象棋程式打敗世界冠軍卡斯帕諾夫（Kasparov），符号 AI 才真正解決大規模複雜系統的開發問題。費根堡姆和雷蒂（R. Raddy）作為設計與構造大型人工智能系統的先驅，共同獲得 1994 年 ACM 圖靈獎。

符号 AI 同樣可以應用于機器學習，把「機器學習」看成是基于知識的（歸納）推理。下面以歸納邏輯程式設計（inductivelogicprogramming，ILP）為例說明符号 AI 的學習機制。在 ILP 中正負樣本（具體示例）、背景知識和學習結果（假設）都以一階邏輯子句（程式）形式表示。學習過程是在假設空間中尋找一個假設，這個假設應盡可能多地包含正例，盡量不包含負例，而且要與背景知識一緻。一般情況下假設空間很大，學習十分困難，不過有了背景知識之後，就可以極大地限制假設空間，使學習變成可行。顯然，背景知識越多，學習速度越快，效果也越好。

為解決不确定問題，近年來，發展了機率歸納邏輯程式設計方法（probabilisticinductivelogicprogramming，PILP）。基于知識的學習，由于有背景知識，可以實作小樣本學習，而且也很容易推廣到不同的領域，學習的魯棒性也很強。以遷移學習（transferlearning）為例，可以将學習得到的模型從一種場景更新或者遷移到另一場景，實作跨領域和跨任務的推廣。

具體做法如下，首先，從學習訓練的環境（包括訓練資料與方法）出發，發現哪些（即具有某種通用性）知識可以跨域或者跨任務進行遷移，哪些隻是針對單個域或單個任務的特定知識，并利用通用知識幫助提升目标域或目标任務的性能。這些通用知識主要通過以下 4 種管道遷移到目标域中去，即源域中可利用的執行個體，源域和目标域中可共享的特征，源域模型可利用的部分，源域中實體之間的特定規則。可見，知識在遷移學習中起關鍵的作用，是以，符号 AI 易于跨領域和跨任務推廣。

在建立符号 AI 中做出重大貢獻的學者中，除費根堡姆和雷蒂（1994）之外，還有明斯基（1969），麥卡錫（1971），紐威爾和西蒙（1975）共 6 位先後獲得圖靈獎（括号中的數字表示獲獎的年份）。總之，第一代 AI 的成功來自于以下 3 個基本要素。以深藍程式為例，第 1 是知識與經驗，「深藍」從象棋大師已經下過的 70 萬盤棋局和大量 5∼6 個棋子的殘局中，總結出下棋的規則。另外，在象棋大師與深藍對弈的過程中，通過調試「評價函數」中的 6000 個參數，把大師的經驗引程序式。第 2 是算法，深藍采用α−β剪枝算法，有效提高搜尋效率。第 3 是算力（計算能力），為了達到實時的要求，深藍使用 IBM RS/6000 SP2, 11.38 G FLOPS（浮點運算 / 秒），每秒可檢查 2 億步，或 3 分鐘運作 5 千萬盤棋局（positions）。

符号 AI 有堅實的認知心理學基礎，把符号系統作為人類進階心智活動的模型，其優勢是，由于符号具有可組合性（compositionality），可從簡單的原子符号組合成複雜的符号串。每個符号都對應着一定的語義，客觀上反映了語義對象的可組合性，比如，由簡單部件組合成整體等，可組合性是推理的基礎，是以符号 AI 與人類理性智能一樣具有可解釋性和容易了解。符号 AI 也存在明顯的局限性，目前已有的方法隻能解決完全資訊和結構化環境下的确定性問題，其中最具代表性的成果是 IBM「深藍」國際象棋程式，它隻是在完全資訊博弈（決策）中戰勝人類，這是博弈中最簡單的情況。而人類的認知行為（cognitivebehavior），如決策等都是在資訊不完全和非結構化環境下完成的，符号 AI 距離解決這類問題還很遠。

以自然語言形式表示（離散符号）的人類知識，計算機難以處理，必須尋找計算機易于處理的表示形式，這就是知識表示問題。我們已有的知識表示方法，如産生式規則（productionrules），邏輯程式（logicprogram）等，雖然計算機易于處理（如推理等），但都較簡單，表現能力有限，難以刻畫複雜和不确定的知識，推理也隻限于邏輯推理等确定性的推理方法。更加複雜的知識表示與推理形式都在探讨之中，如知識圖譜（knowledgegraph）、機率推理等。符号 AI 缺乏數學基礎，除數理邏輯之外，其他數學工具很難使用，這也是符号 AI 難以在計算機上高效執行的重要原因。

基于知識驅動的強 AI 隻能就事論事地解決特定問題，有沒有廣泛适用的弱方法，即通用 AI，目前還是一個值得探讨的問題。此外，從原始資料（包括文本、圖像、語音和視訊）中擷取知識目前主要靠人工，效率很低，需要探索有效的自動擷取方法。此外，真正的智能系統需要常識，常識如何擷取、表達和推理還是一個有待解決的問題。常識的數量巨大，構造一個實用的常識庫，無異于一項 AI 的「曼哈頓工程」，費時費力。

2、第二代人工智能

感官資訊（視覺、聽覺和觸覺等）是如何存儲在記憶中并影響人類行為的? 有兩種基本觀點，一種觀點是，這些資訊以某種編碼的方式表示在（記憶）神經網絡中，符号 AI 屬于這一學派。另一種觀點是，感官的刺激并不存儲在記憶中，而是在神經網絡中建立起「刺激–響應」的連接配接（通道），通過這個「連接配接」保證智能行為的産生，這是連接配接主義的主張，連接配接主義 AI 就是建立在這個主張之上。

1958 年羅森布拉特（Rosenblatt）按照連接配接主義的思路，建立一個人工神經網絡（artificialneuralnetwork，ANN）的雛形——感覺機（perceptron）。感覺機的靈感來自于兩個方面，一是 1943 年麥卡洛克（McCulloch）和皮特（Pitts）提出的神經元數學模型——「門檻值邏輯」線路，它将神經元的輸入轉換成離散值，通常稱為 M-P 模型。二是來自于 1949 年赫布（D. O. Hebb）提出的 Hebb 學習率，即「同時發放的神經元連接配接在一起」。感覺機如圖 1 所示。

其中 b 為門檻值，w 為權值。

AI 的建立者從一開始就關注連接配接主義的思路。1955 年麥卡錫等在達特茅斯（Dartmouth）AI 研究建議中寫道「如何安排一組（假想的）神經元使之形成概念 ······ 已經獲得部分的結果，但問題是需要更多的理論工作」，并把它列為會議的研讨内容之一。由感覺機組成的 ANN 隻有一個隐蔽層，過于簡單。明斯基等于 1969 年出版的書《感覺機》中指出，感覺機隻能解決線性可分問題，而且即使增加隐層的數量，由于沒有有效的學習算法，感覺機也很難實用。明斯基對感覺機的批評是緻命的，使剛剛起步的連接配接主義 AI 跌入低谷達 10 多年之久。在困難的時期裡，在許多學者的共同努力下，30 多年來無論在神經網絡模型還是學習算法上均取得重大進步，逐漸形成了深度學習的成熟理論與技術。

其中重要的進展有，第 1，梯度下降法（gradientdescent），這本來是一個古老的算法，法國數學家柯西（Cauchy）早在 1847 年就已經提出; 到 1983 年俄國數學家尤裡 · 涅斯捷諾夫（YuriiNesterov）做了改進，提出了加強版，使它更加好用。第 2，反向傳播（backpropagation，BP）算法，這是為 ANN 量身定制的，1970 年由芬蘭學生 SeppoLinnainmaa 在他的碩士論文中首先提出; 1986 年魯梅哈特（D.E.Rumelhart）和辛頓（G.Hinton）等做了系統的分析與肯定。「梯度下降」和「BP」兩個算法為 ANN 的學習訓練注入新的動力，它們和「門檻值邏輯」、「Hebb 學習率」一起構成 ANN 的 4 大支柱。

除 4 大支柱之外，還有一系列重要工作，其中包括更好的損失函數，如交叉熵損失函數（cross-entropycostfunction）; 算法的改進，如防止過拟合的正則化方法（regularization）; 新的網絡形式，如 1980 年日本福島邦彥（Fukushima）的卷積神經網絡（convolutionneuralnetworks，CNN），遞歸神經網絡（recurrentneuralnetworks，RNN），長短程記憶神經網絡（longshort-termmemoryneuralnetworks，LSTM），辛頓的深度信念網絡（deepbeliefnets，DBN）等。這些工作共同開啟了以深度學習（deeplearning）為基礎的第二代 AI 的新紀元。

第二代 AI 的學習理論有堅實的數學基礎，為了說明這個基礎，下面舉一個簡單的有監督學習的例子，有監督學習可以形式化為以下的函數回歸問題: 從資料庫 D 中提取樣本

，對樣本所反映的輸入–輸出關系 f:X→Y 做出估計，即從備選函數族（假設空間）F={fθ:X−→Y;θ∈A}中選出一個函數 f^∗使它平均逼近于真實 f。在深度學習中這個備選函數族由深度神經網絡表示:

參數學習中有 3 項基本假設。（1）獨立性假設: 損失函數和備選函數族 F（或者神經網絡結構）的選擇與資料無關。（2）大容量假設: 樣本（x_i，y_i）數量巨大（n→∞）。（3）完備性假設: 訓練樣本完備且無噪聲。

如果上述假設均能滿足，f^∗将随樣本數的增加最後收斂于真實函數 f。由此可見，如果擁有一定品質的大資料，由于深度神經網絡的通用性（universality），它可以逼近任意的函數，是以利用深度學習找到資料背後的函數具有理論的保證。這個論斷在許多實際應用中得到了印證，比如，在标準圖像庫 ImageNet（2 萬類别，1 千 4 百萬張圖檔）上的機器識别性能，2011 年誤識率高達 50%，到 2015 年微軟公司利用深度學習方法，誤識率大幅度地降到 3.57%，比人類的誤識率 5.1% 還要低。低噪聲背景下的語音識别率，2001 年之前基本上停留在 80% 左右，到了 2017 年識别率達到 95% 以上，滿足商品化的要求。

2016 年 3 月谷歌圍棋程式 AlphaGo 打敗世界冠軍李世石，是第二代 AI 巅峰之作，因為在 2015 年之前計算機圍棋程式最高隻達到業餘五段！更加令人驚奇的是，這些超越人類性能成果的取得，并不需要領域知識的幫助，隻需輸入圖像原始像素、語音原始波形和圍棋棋盤的布局（圖像）！

深度學習的成功來自于以下 3 個要素：一是資料，以 AlphaGo 為例，其中 AlphaGo-Zero 通過強化學習自學了億級的棋局，而人類在千年的圍棋史中，下過的有效棋局隻不過 3000 萬盤。二是算法，包括蒙特卡洛樹搜尋（Monte-Carlotreesearch）、深度學習和強化學習（reinforcementlearning）等。三是算力，運作 AlphaGo 的機器是由 1920 個 CPU 和 280 個 GPU 組成的分布系統。是以第二代 AI 又稱資料驅動方法。

在建立第二代 AI 中做出重大貢獻的學者中，有以下 5 位獲得圖靈獎。他們是菲麗恩特（L. G. Valiant，2010）、珀爾（J. Pearl，2011）、本傑奧（Y. Bengio，2018）、辛頓（G. Hinton，2018）、楊立昆（Y. LeCun，2018）等。

早在 2014 年，深度學習的諸多缺陷不斷地被發現，預示着這條道路遇到了瓶頸。下面僅以基于深度學習的圖像識别的一個例子說明這個問題（材料引自本團隊的工作）。文獻表示利用基于動量的疊代快速梯度符号法（momentumiterativefastgradientsignmethod，MI-FGSM）對 Inceptionv3 深度網絡模型實施攻擊的結果。無噪聲的原始圖像——阿爾卑斯山（Alps），模型以 94.39% 的置信度得到正确的分類。利用 MI-FGSM 方法經 10 次疊代之後生成攻擊噪聲，将此攻擊噪聲加進原圖像後得到攻擊樣本。由于加入的噪聲很小，生成的攻擊樣本與原始圖幾乎沒有差異，人類無法察覺，但 Inceptionv3 模型卻以 99.99% 的置信度識别為「狗」。

深度學習為何如此脆弱，這樣容易受攻擊，被欺騙和不安全，原因隻能從機器學習理論本身去尋找。機器學習的成功與否與 3 項假設密切相關，由于觀察與測量資料的不确定性，所擷取的資料一定不完備和含有噪聲，這種情況下，神經網絡結構（備選函數族）的選擇極為重要，如果網絡過于簡單，則存在欠拟合（under-fitting）風險，如果網絡結構過于複雜，則出現過拟合（overfitting）現象。雖然通過各種正則化的手段，一定程度上可以降低過拟合的風險，但是如果資料的品質差，則必然會導緻推廣能力的嚴重下降。

此外，深度學習的「黑箱」性質是造成深度學習推廣能力差的另一個原因，以圖像識别為例，通過深度學習隻能發現重複出現的局部片段（模式），很難發現具有語義的部件。文獻描述了利用深度網絡模型 VGG-16 對「鳥」原始圖像進行分類，從該模型 pool5 層 147 号神經元的響應可以看出，該神經元最強烈的響應是「鳥」頭部的某個局部特征，機器正利用這個局部特征作為區分「鳥」的主要依據，顯然它不是「鳥」的不變語義特征。是以對于語義完全不同的對抗樣本（人物、啤酒瓶和馬等），由于具有與「鳥」頭部相似的片段，VGG-16 模型 pool5 層 147 号神經元同樣産生強烈的響應，于是機器就把這些對抗樣本錯誤地判斷為「鳥」。

3、第三代人工智能

第一代知識驅動的 AI，利用知識、算法和算力 3 個要素構造 AI，第二代資料驅動的 AI，利用資料、算法與算力 3 個要素構造 AI。由于第一、二代 AI 隻是從一個側面模拟人類的智能行為，是以存在各自的局限性。為了建立一個全面反映人類智能的 AI，需要建立魯棒與可解釋的 AI 理論與方法，發展安全、可信、可靠與可擴充的 AI 技術，即第三代 AI。其發展的思路是，把第一代的知識驅動和第二代的資料驅動結合起來，通過同時利用知識、資料、算法和算力等 4 個要素，構造更強大的 AI。目前存在雙空間模型與單一空間模型兩個方案。

3.1 雙空間模型

雙空間模型如圖 2 所示，它是一種類腦模型，符号空間模拟大腦的認知行為，亞符号（向量）空間模拟大腦的感覺行為。這兩層處理在大腦中是無縫融合的，如果能在計算機上實作這種融合，AI 就有可能達到與人類相似的智能，從根本上解決目前 AI 存在的不可解釋和魯棒性差的問題。為了實作這種目标，需要解決以下 3 個問題。

3.1.1 知識與推理

知識（包括常識）與推理是理性智能的基礎, 在第一代 AI 中, 以實體符号系統模拟人類的理性智能, 取得顯著的進展, 但無論在知識表示還是推理方法上都有大量的問題需要進一步探讨。下面以 IBMDeepQA 項目為例說明最近的進展, 之是以選擇這個例子是因為基于 DeepQA 構成的 Watson 對話系統, 在 2011 年 2 月美國電視「危險邊緣」智力競賽節目中, 以壓倒優勢戰勝全美冠軍 K. 詹甯斯 (KenJennings) 和 B. 拉特 (BradRutter), 表明 Watson 是一個成功的 AI 系統。Watson 關于知識表示和推理方法的以下經驗值得借鑒: （1）從大量非結構化的文本自動生成結構化知識表示的方法, （2）基于知識品質的評分表示知識不确定性的方法, （3）基于多種推理的融合實作不确定性推理的方法。

Watson 系統将「問答」(question-answer) 看成是基于知識的從「問題」到「答案」的推理，為了達到人類的答題水準，計算機需要擁有與人類冠軍一樣甚至更多的知識。其中包括百科全書、主題詞表、詞典、專線新聞報道、文學作品等網際網路上數量巨大（相當于 2 億頁的紙質材料）的文本，這些文本是非結構化的，而且品質參差不齊，需要把這些非結構化的文本自動轉換為結構化且易于處理的表達形式。Watson 系統使用的表達形式為「擴充語料庫」(expendedcorpus) , 它的生成步驟如下。首先給出基線語料庫 (baselinecorpus) 判别種子檔案 (seeddocuments) , 根據種子檔案從網上收集相關檔案并并從中挖掘「文本核」(textnuggets) , 對文本核做評分按按照評分結果內建為最後的「擴充語料庫」。

除自動生成的擴充語料庫之外， Watson 的知識庫中還包括已有的語料庫，如 dbPedia， WordNet， Yago 等，以及人工編制的部分庫。Watson 采用多種推理機制（多達百種）将「問題」轉換為「答案」(見圖 3）。先對「問題」做分析、分類和分解，根據分解的結果從答案源（語料庫）中搜尋假設與候選答案，經初步過濾之後，篩選出 100 個左右候選答案。再從證據源中收集證據，對候選答案進行評分，評估過程同時考慮資料源的可靠性，依據評分結果合成出幾種候選答案，按照置信度大小進行排序，最後輸出排序後的答案。

此外，Watson 還通過 155 場與人類現場對決和 8000 次的實驗，學習對「問題」（自然語言）的了解。

3.1.2 感覺

符号主義用符号系統作為人類心智的模型，以實作與人類相似的推理能力。但從認知的角度看，二者卻有本質上的不同，即存在「符号基礎問題」(symbolgroundingproblem)。在實體符号系統中，客觀世界的「對象」和「關系」等用符号表示，但符号本身并無語義，我們隻好人為地給它們規定語義，也就是說是外部強加的「寄生語義」(parasiticsemantics) , 機器本身并不知道。這與人類大腦中存在的「内在語義」(intrinsicsemantics) 完全不同，人類大腦中的「内在語義」，特别是「原子概念」和「常識」，除極少數先天之外，主要是通過感官（視聽等）或者感官與動作的結合自我習得的，即将感官圖符式（iconic）表示或反映語義不變性的分類（categorical）表示轉化為符号表示。這本來是深度學習要完成的任務，但很可惜，目前深度學習的模型并不能完成這項使命。

因為深度學習所處理的空間是特征空間，與語義空間差别很大，它隻能學到沒有明确語義的「局部片段」，這些片段不具備可組合性，是以不能用來作為「物體」的「内在語義」表示。換句話講，目前的深度學習隻能做到「感覺」(sensation) , 達不到感覺為為達到感覺的水準，機器必須通過自我學習擷取「物體」的語義部件 (semanticparts) , 如「狗」的腿、頭、尾等，才有可能通過這些部件的組合形成「狗」的不變「内在語義」。解決這個問題的基本思路是利用知識為引導，将感覺的資訊從向量特征空間提升到符号語義空間，如圖 2 所示。這方面已經有不少的研究工作，下面以本團隊的工作闡述這方面工作的初步進展。

文獻 [40] 描述如何利用一個三元生成對抗網絡 (triplegenerativeadversarialnetworks , Triple-GAN) 提高圖像分類性能的方法。三元生成對抗網絡由 3 部分組成: 分類器、生成器和鑒别器，分别用于條件化圖像生成和半監督學習中的分類。生成器在給定真實标簽的情況下生成僞資料，分類器在給定真實資料的情況下生成僞标簽，鑒别器的作用是區分資料标簽對是否來自真實标記的資料集。如果設計好合适的效用函數，利用三元生成對抗網絡，可以通過無監督（或弱監督）學習，讓生成器（網絡）學到樣本中「物體」的表示（即先驗知識），同時利用這個先驗知識改善分類器的性能。

此項研究表明，通過 ANN 的無監督學習可以學到「物體」的先驗知識，這就是「物體」（符号）的「内在語義」。利用這個具有「内在語義」的先驗知識提高分類器的識别率，從根本上解決計算機視覺中存在的「檢測」（where）與「識别」（what）之間的沖突，實作小樣本學習，提高魯棒性和推廣能力。

還可以從另外的角度思考，先回到深度學習所使用的人工神經網絡（圖 4），以視覺為例，它與人類的視覺神經網絡相比過于簡單了，既沒有回報連接配接，同層之間的橫向連接配接和抑制連接配接，也沒有稀疏放電、記憶和注意等機制。如果我們能夠将這些機制引進 ANN，将會逐漸提高計算機視覺的感覺能力。由于我們對大腦視神經網絡的工作原理了解得很少，目前隻能沿着「腦啟發計算」（brianinspiredcomputing）的道路一步一步地往前探索。

目前有一些試探性的工作，有些效果但都不夠顯著。下面介紹本團隊的一項研究。如文獻所述，将稀疏放電的原理運用到 ANN 各層的計算中。網絡共 6 層，包括 Gabor 濾波和 Max 池化等，在各層的優化計算中加上「稀疏」正則限制項，稀疏性的要求迫使 ANN 選擇最具代表性的特征。如果用背景簡單的「人類」「小汽車」「大象」和「鳥」等圖像作為訓練樣本訓練網絡，那麼神經網絡的輸出層就會出現代表這些「類别」的神經元，分别對人臉、小汽車、大象和鳥的輪廓做出響應，即提取了「整個物體」的語義資訊，形成部分的「内在語義」。

這種方法也隻能提取部分的語義資訊，還不能做到提取不同層面上的語義資訊，如「整體」、「部件」和「子部件」等，達到符号化的水準，是以仍有許多工作有待研究。

3.1.3 強化學習

上面說過通過感官資訊有可能學到一些基本知識（概念），不過僅僅依靠感官資訊還不夠，比如「常識概念」，如「吃飯」「睡覺」等僅依靠感官難以擷取，隻有通過與環境的互動，即親身經驗之後才能獲得，這是人類最基本的學習行為，也是通往真正 AI 的重要道路。強化學習（reinforcementlearning）就是用來模拟人類的這種學習行為，它通過「互動–試錯」機制，與環境不斷進行互動進而學習到有效的政策，很大程度上反映了人腦做出決定的回報系統運作機理，成為目前人工智能突破的重要方法，在視訊遊戲、棋牌遊戲、機器人導航與控制、人機互動等領域取得了諸多成果，并在一些任務上接近甚至超越了人類的水準。

強化學習通常看成是離散時間的随機控制過程，即智能體與環境的互動過程。智能體從起始狀态

出發，取得起始觀察值

，在 t 時刻，智能體根據其内部的推理機制采取行動

之後，獲得回報

，并轉移到下一個狀态

，得到新的觀察

。強化學習的目标是，選擇政策π（s，a）使累計回報預期 V^π（s）:S→R 最優。如果我們考慮簡單的馬爾可夫（Markov）決策過程，即後一個狀态僅取決于前一個狀态，并且環境完全可觀察，即觀察值 o 等于狀态值 s，即 O=S; 并假設政策穩定不變。如圖 5 所示。以 AlphaZero 為例，智能體不依賴人類的标注資料，僅僅通過自我博弈式的環境互動積累資料，實作自身政策的不斷改進，最終在圍棋任務上達到了超越人類頂級大師的水準，代表強化學習算法的一個巨大進步。

強化學習算法在選擇行為政策的過程中，需要考慮環境模型的不确定性和目标的長遠性。具體的，通過值函數也就是未來累積獎勵的期望衡量不同政策的性能，即

其中γ∈[0，1]是折扣因子。值函數可以寫成貝爾曼方程（Bellmanequation）的形式。該方程表示了相鄰狀态之間的關系，可以利用其将決策過程劃分成多個不同的階段，其中某一階段的最優決策問題可以利用貝爾曼方程轉化為下一階段最優決策的子問題。

強化學習的核心目标就是選擇最優的政策，使得預期的累計獎勵最大，即值函數取得最優值

需要指出的是，盡管強化學習在圍棋、視訊遊戲等任務上獲得了極大的成功，但是這些任務從本質上是相對「簡單」的，其任務的環境是完全可觀察的、回報是确定的、狀态主要是離散的、規則是明确的，同時可以相對比較廉價地得到大量的資料，這些都是目前人工智能算法所擅長的。但是在不确定性、不完全資訊、資料或者知識匮乏的場景下，目前強化學習算法的性能往往會出現大幅度的下降，這也是目前強化學習所面臨的重要挑戰。其中的典型問題如下所述。

（1）部分觀測馬氏決策過程中強化學習: 在真實的問題中，系統往往無法感覺環境狀态的全部資訊，是以不僅需要考慮動作的不确定性，同時也需要考慮狀态的不确定性。這就導緻了部分感覺的強化學習往往不滿足馬爾可夫環境假設。盡管相關的研究者近年來進行了大量的探索，但是部分觀測馬氏決策（partiallyobservableMarkovdecisionprocess，POMDP）仍然是強化學習中比較有挑戰的問題。

（2）領域知識在強化學習中的融合機制: 如何實作領域知識的融合在強化學習中同樣是重要科學問題。對提高收斂速度、降低采樣複雜度、改善模型遷移性和算法魯棒性等具有重要意義。本團隊針對這一問題，在領域知識指導的動作空間抽象壓縮、結構設計等方面進行了初步探索，但是如何實作領域知識和強化學習架構的高效融合仍然是亟待解決的問題。

（3）強化學習和博弈論的結合: 博弈論和強化學習的結合是近年來領域内研究的熱點問題。二者的結合可以讓多智能體之間的競争和合作關系的模組化變得更加直覺和清晰，這其中包含了多智能體之間的零和 / 非零和、完全資訊 / 非完全資訊等多種不同的任務類型，尤其是在對抗性的任務中更具有研究和應用價值。本團隊前期在這方面也進行了探索性的研究，将智能體對環境的探索模組化成智能體和環境之間的博弈過程，也是目前第一個在擴充型博弈、參數未知的場景下能夠從理論上保證收斂的算法。

除此之外，強化學習所面臨的難題還包括仿真環境和真實環境的差異、探索和利用的沖突、基于模型的強化學習算法等諸多難點的問題，相比于監督學習所獲得的成功而言，強化學習的研究還處于相對較為初級的階段。

3.2 單一空間模型

單一空間模型是以深度學習為基礎，将所有的處理都放在亞符号（向量）空間，這顯然是為了利用計算機的計算能力，提高處理速度。問題在于深度學習與大腦的學習機制不同，在許多方面表現不佳，如可解釋性和魯棒性等。關鍵是要克服深度學習所帶來的缺陷，如圖 6 所示。下面讨論幾個關鍵問題。

3.2.1 符号表示的向量化

知識通常以自然語言的離散符号形式表示，為了實作單一空間模型，首先要将符号表示的詞、短語、句子和篇章等轉換為向量，或者将知識圖譜轉換為向量表示。關鍵是「詞」的變換，即詞嵌入（wordembedding）。目前「詞嵌入」已有各種方法，如 Word2Vec[53]和 GloVe等。

下面介紹 Word2Vec 中采用的 Skip-gram[55]政策，用來說明詞是如何由符号轉換為向量的。

其中 w 是給定的目标詞，c 是從其上下文中任選的一個詞，p（c|w;θ）是給定詞 w 下，詞 c 出現的機率。D 是從語料庫中提取的所有 w−c 對，θ是模型參數，式（5）進一步參數化後，得到

其中

是詞 c 和詞 w 的向量表示，C 是所有可用文本。參數

,i=1,2,...d，共 | C|×|W|×d 個。調整這些參數使式（5）最大化，最後得到所有詞 w∈W 的向量表示

。

這些詞向量具有以下良好的性質，即「語義相似的詞，其詞向量也很相似」（見圖 7）。變換後的詞向量之是以具有上述良好的性質，出自嵌入過程的以下假設，兩個詞在上下文中同現的頻率越高，這兩個詞的語義越可能接近，或者越可能存在語義上的某種關聯。嵌入詞向量的這些特性，表明它帶有語義資訊，是以稱嵌入空間為準語義空間。式（5）是難計算的，可以采用深度神經網絡等做近似計算。利用類似的嵌入法也可以把「短語」「句子」和「篇章」或者知識圖譜等轉換到具有準語義的向量空間中去。

向量形式的知識表示具有上述良好的性質，且可以與資料一樣，使用大量的數學工具，包括深度學習方法，是以被大量應用于文本處理，如機器翻譯等，取得明顯的效果。下面以神經機器翻譯（neuralmachinetranslation）為例予以說明。

神經機器翻譯的基本思路是，給定源句子（比如中文）

，尋找目标句（比如英文）

。神經翻譯的任務是，計算詞一級翻譯機率的乘積，

其中θ是一組模型參數，

是部分翻譯結果。詞一級的翻譯機率可用 softmax 函數 f（·）定義:

其中

是目标句中第 j 個詞的向量表示，v_x 是源句子的向量表示，

是部分翻譯句的向量表示，y=y_j，j=1，2...，J 是要找的目标句。

神經翻譯模型的構造: 給定訓練樣本為一組「源句–目标句」對

，模型訓練的目标是最大化 log 似然:

即選擇一組模型參數θ，使目标函數最大化。利用這個模型，通過式（7）計算（翻譯）目标句子。這種翻譯方法盡管可以得到比傳統方法錯誤率還低的翻譯結果，但它具有深度學習方法的共性缺陷，如不可解釋、會發生重大錯誤、魯棒性差等。為克服這些缺陷，需要加入知識，通過先驗知識或後驗正則化等方式引入語言知識等。

3.2.2 深度學習方法的改進

基于深度學習的 AI 具有不可解釋和魯棒性差等缺陷，目前有許多改進工作。下面介紹本團隊的一些工作。

（1）可解釋性問題。可解釋人工智能算法的研究近年來引起衆多研究人員的關注。而人類了解機器決策過程的核心難點是跨越資料特征空間和人類語義空間之間的鴻溝。無論是早期的以手工特征為基礎的算法，還是目前以特征學習為代表的深度學習，其核心思想都是将觀測樣本映射到特征空間中，進而在特征空間進行分析，發現樣本在特征空間不同區域内的規律，進而達到算法要實作的任務目标（如分類、回歸等）。與之不同的是，人類的分析和決策是利用自身的背景知識，在語義空間當中完成。但是資料特征空間和人類的語義空間在結構和内涵上存在顯著的差別，而可解釋人工智能的最終就是要在二者之間架起一座橋梁，進而跨越二者之間的鴻溝。

總體而言，相關的研究主要分為（i）模型的後解釋技術（post-hocexplanation），也就是給定了人工智能的模型，通過可視化、互動技術等方式，分析給定模型的工作機理，為其決策結果尋找解釋途徑;（ii）可解釋模型，即通過發展新的網絡架構、損失函數、訓練方式等，發展具有内在可解釋性的新型人工智能模型。從整體來說，兩類方法目前都在發展過程中，在可解釋性的研究中具有重要作用。

可視分析是人工智能算法可解釋的一種直覺的思路。既然深度學習是「黑箱」學習法，内部的工作機理是不透明的，「不可解釋」，如果利用可視化，打開「黑箱」，一切不就清楚了嗎? 為了幫助機器學習專家更加了解卷積神經網絡的工作機理，我們開發了 CNNVis 這一可視分析工具。CNNVis 旨在幫助專家更好地了解與診斷深度卷積神經網絡，作為一種混合可視化方法，綜合應用了基于雙聚類技術的邊綁定方法，以及矩形布局算法、矩陣重排算法和有向無環圖布局算法等。作為可視化領域的首批深度學習可視分析工作，該工作在工業界和學術界都引起了廣泛關注。在此基礎上，為了分析複雜神經網絡的訓練過程，我們以深度生成模型（對抗生成網絡（generativeadversarialnetworks，GAN）和變分自編碼器（variationalauto-encoder，VAE））為例，研究了如何幫助機器學習專家診斷訓練過程中出現的常見問題。

解釋模型的另外一個思路是利用部分統計分析的技巧，針對神經網絡決策過程中的參數備援性，對神經網絡内部最後決策起到關鍵作用的子成分進行分析，得到複雜模型内部對決策起到最關鍵作用的核心部分。為了更高效發掘子網絡，我們借鑒了網絡剪枝（networkpruning）思路，提出一種普适的提取子網絡的方法，而無需對模型從頭進行訓練。具體來說，我們對網絡中每一層都附加一組控制門（controlgate）變量，在知識蒸餾（knowledgedistillation）準則下優化該組變量控制各層輸出通道，用以确定關鍵子網絡。具體來說，令 p（y | x;θ）為具有權重參數θ的原始模型對于單個樣本 X 所做出的預測機率。而我們想要提取參數為θ_s 的關鍵子網絡，其預測輸出應為 q（y | x;θ_s），應該與原模型輸出結果在 Kullback-Leibler 散度度量下接近。是以總體最小化目标函數為

其中Ω（θ_s）為稀疏正則項，即鼓勵模型通過盡量少的激活神經元達到和原網絡相似的性能。通過對關鍵子網絡可視化分析，我們觀察到對于樣本特定子網絡，各層控制門值表征形式随着層級增高而展現出類别區分特性。實驗結果表明，對于類别特定子網絡，其整體表征形式與類别語義之間有着密切聯系。

以上方法更多的關注是模型的後解釋，也就是給定一個深度學習模型「強行」尋求對其決策過程的解釋，而這種解釋是否符合神經網絡的内在機理仍然是需要讨論的問題。由于深度學習模型的不可解釋性是由于機器推理的特征空間和人類可了解的空間存在着本質的差別，是以深度學習要想實作可解釋性就需要把機器特征空間和人類的語義空間聯系起來。本團隊也在此方面進行了探索性研究，主要針對如何将人類的先驗知識融入到深度學習模型的訓練中，使特征具有更加明确的語義内涵，進而能夠做到決策的追溯。具體的，在圖文的聯合分析中，我們利用文本資訊中抽取出來的人類可了解的主題資訊指導神經網絡的訓練過程，并對文本和圖像 / 視訊資料進行協同訓練，引導神經網絡訓練得到人類可以了解的語義特征。具體的，我們通過在神經網絡的目标函數中引入可解釋的正則限制:

其中第 1 項是相關任務的損失函數，第 2 項是可解釋正則限制。通過這種方法，可以在文本資料引導下，通過不同模态資料之間的資訊互補性，利用可解釋正則限制，提升深度學習模型的可解釋性。

（2）魯棒性問題。由于對抗攻擊給深度學習模型帶來的潛在的惡意風險，其攻擊不但精準且帶有很強的傳遞性，給深度學習模型的實際應用帶來了嚴重的安全隐患，迫切需要增強深度學習模型自身的安全性，發展相應的深度學習防禦算法，降低惡意攻擊帶來的潛在威脅。具體來說，目前的深度學習防禦算法主要有兩類思路。

第 1 是基于樣本 / 模型輸入控制的對抗防禦。這類方法的核心是在模型的訓練或者使用階段，通過對訓練樣本的去噪、增廣、對抗檢測等方法，降低對抗攻擊造成的危害。其中去噪器由于不改變模型自身的結構和性質，具有「即插即用」的性質，引起了廣泛的關注。但是由于對抗噪聲的特殊屬性，其形成的幹擾效應往往可以随着神經網絡的加深逐漸放大，是以在普通的高斯噪聲（Gaussiannoise）上具有良好濾除效果的自編碼器往往不能很好地濾除對抗噪聲。

針對這一問題，本團隊提出了基于高層表示引導的去噪器（HGD），通過高層特征的限制使得對抗樣本與正常樣本引起目标模型的上層神經元響應盡可能一緻。将傳統像素級去噪網絡 DAE（denoisingautoencoder）與 U-net 網絡結構進行結合，到負噪聲輸出

張钹院士：邁向第三代人工智能（全文收錄）

，用對抗樣本加上負噪聲可以得到去噪圖檔

張钹院士：邁向第三代人工智能（全文收錄）

，即

。研究表明該方法不僅去掉了一部分對抗擾動，還增加了一部分「反對抗擾動」，取得了非常好的防禦效果，獲得「NIPS2017 對抗性攻防競賽」中對抗防禦任務冠軍，以及 2018 年在拉斯維加斯（LasVegas）舉辦的 CAADCTF 對抗樣本邀請賽冠軍。

第 2 是基于模型增強的對抗防禦。這類方法的核心是通過修改網絡的結構、模型的激活函數、損失函數等，訓練更加魯棒的深度學習模型，進而提高對對抗攻擊的防禦能力。其中內建模型（ensemble）是近年來出現的一類典型的防禦方法。針對經典內建防禦由于各個子模型的相似性導緻防禦性能下降的問題，本團隊提出自适應多樣性增強訓練方法（adaptivediversitypromotingtraining，ADP）。相比于經典內建模型，ADP 方法在訓練函數中額外引入了多樣性正則項，鼓勵每個子模型在正确類别上決策一緻，而在其他類别上預測不一緻。由于其他類别包括所有潛在的對抗樣本的目标類别，是以這種不一緻性可以使得各個子模型難以被同時欺騙，進而增強內建模型的魯棒性。具體來講，在 ADP 方法中，為了保證每個子模型的最大預測都對應于正确的類别，這種多樣性定義在每個子模型輸出的非最大預測上，當不同子模型的非最大預測向量互相正交時，這種多樣性取得最大值。具體的，其訓練的目标函數為

其中，

;

為每個子模型 k 的交叉熵（cross-entropy）損失函數。ADP_α，β（x，y）=α·H（F）+β·log（ED）是模型內建多樣性的度量，鼓勵不同的子模型形成盡量差異化的決策邊界。實驗結果表明，通過鼓勵不同子模型的差異化決策性質，有效地提升了模型的對抗魯棒性。但是，總體而言，目前多數的對抗防禦方法是基于經驗主義的，研究表明很多防禦對抗樣本的方法在很短的時間就會被後來的攻擊算法攻破。其重要原因之一是深度學習隻是在做簡單的函數拟合，缺乏像人一樣對問題的了解能力。是以通過了解機器學習模型的内部工作機理，發展資料驅動和知識驅動融合的第三代人工智能理論架構，将成為提高人工智能算法魯棒性的重要途徑。

但是，總體而言，目前多數的對抗防禦方法是基于經驗主義的，研究表明很多防禦對抗樣本的方法在很短的時間就會被後來的攻擊算法攻破。其重要原因之一是深度學習隻是在做簡單的函數拟合，缺乏像人一樣對問題的了解能力。是以通過了解機器學習模型的内部工作機理，發展資料驅動和知識驅動融合的第三代人工智能理論架構，将成為提高人工智能算法魯棒性的重要途徑。

3.2.3 貝葉斯深度學習

如圖 6 所示，圖像和語音等資訊是在特征空間中處理的，這些特征語義資訊很少，需要提取含有更多語義的特征，其中的一種解決辦法是将知識引入深度學習。下面以貝葉斯深度學習為例，說明這一思路。

我們前面說過深度神經網絡沒有考慮資料觀測的不确定性，這種不确定性的存在，以及對于資料背後實體背景的無知，使我們對深度學習結果的正确性難以判斷。同時，在資料量有限但模型逐漸變大（如包括十億甚至千億參數）的過程中，模型的不确定性也變得更嚴重——存在很多模型在訓練集上表現都很好，但在測試集上的表現差别很大。貝葉斯學習充分考慮了先驗知識以及模型和資料的不确定性，而且還能從不斷提供的資料（證據）中，加深對資料的了解，即根據新的證據實作增量式的學習，充分發揮知識在學習中的作用。不僅可以對學習結果的可信度做出判斷，也是以提高了學習的效率和準确度。

貝葉斯學習（Bayesianlearning）定義: 給定觀測資料 d∈D，按貝葉斯規則計算每個假設的機率，

其中 D 是所有資料。給定 d

是對未知量 X 的預測，即通過觀測資料确定各個假設的機率，再從各個假設确定未知量 X 的分布。其中的關鍵是假設先驗 p（h_i）和給定假設 h_i 下資料 d 的似然 p（d|h_i）。貝葉斯預測（式（13））不管樣本量大小，均可達到最優，但當假設空間很大時，式（13）的加法計算量太大（在連續情況下為積分），難以實際應用。通常需要采用近似算法，主要有兩類近似方法——變分推斷和蒙特卡洛采樣[69]。另外，還有一些常見的簡化有，（1）對 X 的預測不是利用所有的假設，而隻利用其中讓 p（h_i|d）最大化的一個 h_i，稱為最大化後驗（maximumaposteriori，MAP）假設。（2）假定 p（h_i）是均勻分布，問題就簡化為，選擇一個讓 p（d|h_i）最大化的 hi，稱為最大化似然（maximumlikelihood，ML）假設。（3）如果不是所有資料都可以觀測，即存在隐變量，通常采用 EM（expectationmaximization）算法[70]。該算法分為兩步（式（14）），E 步: 利用觀測的資料 x 和θ^（i），計算 p（Z=z|x;θ^（i））;M 步: 利用計算出來的 z 和 x，計算模型參數θ^（i+1）。兩個步驟交替進行，找到最終的模型參數θ:

貝葉斯準則 (式 (12)) 是一個從先驗分布和似然函數推斷後驗分布的過程, 為了更靈活地考慮知識, 我們團隊提出了正則化貝葉斯 (regularized Bayesian inference, RegBayes) , 它基于貝葉斯定理的資訊論描述 , 通過引入後驗正則化, 在變分優化的架構下可以靈活地考慮領域知識 (如基于邏輯表達式的知識 ) 或者學習任務優化的目标 (如最大間隔損失 ) 等。

更進一步的, 貝葉斯深度學習是将貝葉斯學習的基本原理與深度神經網絡的表示學習有機融合的一類方法, 融合主要展現在兩個方面, (1) 用貝葉斯方法更好地學習深度神經網絡 (如貝葉斯神經網絡、高斯過程等), 包括計算預測的不确定性、避免過拟合等; (2) 用深度神經網絡作為非線性函數變換定義更加豐富靈活的貝葉斯模型, 如圖 8 所示, 包括深度生成模型 (如 GAN, VAE, 基于可逆變換的流模型等). 其中第 1 種融合早在 20 世紀 90 年代就被霍普菲爾德 (J. Hopfield) 和辛頓指導博士生系統研究過 , 當時的算力和資料都很有限, 稍微大一點的神經網絡都面臨着嚴重的過拟合, 是以, 那時候就開始研究用貝葉斯方法保護神經網絡, 并且選擇合适的網絡結構. 随着神經網絡的加深, 貝葉斯方法又引起了很多研究興趣, 主要進展包括對深度貝葉斯神經網絡進行高效的 (近似) 計算, 需要克服的主要困難是深度網絡過參數化 (over-parametrization) 帶來的維數災難. 在這方面, 我們團隊進行了深入研究, 先後提出了隐式變分推斷 (implicit variational inference) 算法 , 在泛函空間進行粒子優化的推斷算法 (functional variational inference) 等。

對于第 2 種融合, 我們知道一個簡單分布的随機變量 z 經過函數 f 變化之後, 得到的變量 x = f(z), 具有更複雜的分布, 當 f 是一個雙射變換時, 我們可以得到 x 分布的解析形式

但是, 在處理複雜資料時, f 是未知的, 是以, 我們希望從資料中進行學習. 利用深度神經網絡的強大拟合能力, 我們将 f 定義成一個深度神經網絡, 通過一定的準則學習最優的 f_θ. 如圖 8 所示, 這種想法被證明是非常有效的, 已經發展了包括 VAE, GAN 以及基于流的模型 (flow-based models), 即使在完全無監督訓練下, 這些模型都可以産生高品質的自然圖檔或人臉等。

具體的, 這幾種模型的差別在于定義 x 的變化函數, 在 VAE 中,

其中 ϵ 是一個噪聲變量 (如白噪聲對應的标準高斯分布); 在 GAN 和基于流的模型中, 沒有顯式的噪聲變量。這種差別帶來了參數估計上的不同, VAE 和基于流的模型采用最大似然估計, 而 GAN 定義了對抗學習的目标——「最大最小博弈」。同樣的, 這些模型雖然功能強大, 但是給推斷和學習也帶來了很多挑戰。例如, GAN 網絡的訓練過程經常是不穩定的, 會遇到梯度消失或梯度爆炸等問題, 我們團隊最新的成果利用控制論對這一問題進行了分析研究, 提出了有效的回報機制, 能夠讓 GAN 的訓練更平穩。此外, 基于可逆變換的流模型往往受限于維數的限制, 為此, 我們提出了自适應資料增廣的流模型, 顯著提升這類模型的表達能力。

基于上述介紹, 能夠看出貝葉斯深度學習提供了一種強大的模組化語言, 将不确定性模組化和推斷與深度表示學習有機融合, 其關鍵挑戰在于推斷和學習算法。幸運的是, 近年來, 在算法方面取得了很多突破進展 (如上所述)。同時, 也發展了性能良好的機率程式設計庫, 支援貝葉斯深度學習模型的開發和部署。例如, 我們團隊研制的「珠算」1) , 是最早的系統支援貝葉斯深度學習的開源庫之一。在應用方面, 貝葉斯深度學習的方法已經在時間序列預測、半監督學習、無監督學習、小樣本學習、持續學習等複雜場景下, 取得良好的效果。

3.2.4 單一空間中的計算

如圖 6 所示, 我們要在單一的向量空間中, 對來自文本的嵌入向量和來自視聽覺的特征向量進行計算, 存在一定的難度. 因為文本中以符号表示的詞, 經嵌入之後變成向量時損失了大量語義, 從視聽覺中提取的特征, 雖然我們盡量擷取更多的語義, 但一般情況多屬底層特征, 語義含量很少。

我們将以視覺問答為例介紹這方面的初步嘗試. 在視覺問答中既有圖像又有文本, 需要在單一的向量空間中同時處理, 涉及單一空間模型的使用。以本團隊關于「篇章級圖文問答」研究工作為例予以說明。如圖 9 所示, 根據給定的圖檔, 回答以下問題, 「在大陸地殼下面有多少層 (類型)?」, 除問題以文本形式表示之外, 還有一個與圖檔相關的篇章「闆塊運動」。

首先通過詞嵌入 (采用 Word2Vec 中的 Skip-gram 政策), 将「問題」與「篇章」中的以離散符号表示的詞轉換為向量. 圖檔經 ResNet 網絡處理後, 取 res5c 層的特征作為輸出 , 它是一組高維空間的特征向量。然後将「問題」和「篇章」中的詞向量與「圖檔」輸出的特征向量做融合, 以預測「答案」。為了更好地融合, 通過注意機制, 先找出「問題」和「篇章」中的「關鍵詞」, 這些關鍵詞能夠更好地反映「問題」的主題 (語義)。再依據關鍵詞通過「空間注意機制」找出圖檔中關鍵區域的特征, 因為這些特征更符合關鍵詞向量所表達的主題, 是以融合效果會更好。這裡采用的融合方法是雙線性池化 (multi modal bilinear pooling) 方法。「圖文問答」是選擇題, 備選方案有「1」, 「2」, 「3」三種, 将融合後的向量與備選方案的向量相比較, 取最接近的一個向量作為輸出, 這裡是「2」 (向量)。

圖文問答目前達到的水準與人類相比相差很遠, 以「選擇題」為例, 目前達到的水準隻比随機猜測略好。

4、總結

為了實作第三代 AI 的目标, 我們采用三空間融合的模型，即融合雙空間與單空間兩種模型，如圖 10 所示。雙空間模型采用類腦的工作機制，如果實作的話，機器就會像人類大腦的行為一樣，具有可解釋性與魯棒性。此外，當把感覺（視覺、聽覺等）信号提升為感覺（符号）時, 機器就具備一定的了解能力，是以也解決了可解釋和魯棒的問題。當機器中的基本概念（符号）可由感覺産生時，符号就有了基礎 (根基)，符号與符号推理就有了内在的語義，從根本上解決了機器行為的可解釋與魯棒性的問題。單空間模型以深度學習為基礎，存在不可解釋與不魯棒的缺陷，如果經過改進提高了其可解釋性與魯棒性，就從另外一個方向邁向第三代 AI。

雙空間模型模仿了大腦的工作機制，但由于我們對大腦的工作機制了解得很少，這條道路存在某些不确定性，比如，機器通過與環境的互動學習 (強化學習) 所建立的「内在語義」, 與人類通過感覺所擷取的「内在語義」是否一樣，機器是否也能具有意識? 等，目前還不能肯定。盡管存在這些困難，但我們相信機器隻要朝這個方向邁出一步，就會更接近于真正的 AI。單一空間模型是以深度學習為基礎，優點是充分利用計算機的算力，在一些方面會表現出比人類優越的性能。但深度學習存在一些根本性的缺點，通過算法的改進究竟能得到多大程度的進步，也存在不确定性，需要進一步探索。但是，我們也相信對于深度學習的每一步改進，都将推動 AI 向前發展。

考慮以上這些不确定性，為了實作第三代 AI 的目标，最好的政策是同時沿着這兩條路線前進，即三空間的融合，如圖 10 所示。這種政策的好處是，既最大限度地借鑒大腦的工作機制，又充分利用計算機的算力，二者的結合，有望建造更加強大的 AI。

如有意向邀請諾貝爾獎得主、中國兩院院士、國内著名經濟學家、國内外其他領域專家出席活動，請聯系他山石智庫。

他山石智庫

專注從院士到諾貝爾獎得主邀約

大會發言／企業内訓／代言背書／技術合作

張钹院士：邁向第三代人工智能（全文收錄）

繼續閱讀

人工智能驅動的“深度醫學”正在變革目前醫療保健實踐

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行

張钹院士： 邁向第三代人工智能（全文收錄）

繼續閱讀

張钹院士：邁向第三代人工智能（全文收錄）