天天看點

AlphaGo:從直覺學習到整體知識

谷歌AlphaGo最近戰勝了歐洲頂尖職業圍棋玩家,這一壯舉被廣泛認為是人工智能(AI)的重大突破,因為AlphaGo所具有的功能(圍棋的複雜度是國際象棋的指數倍)以及出現的時間(比預期要早出現許多)。它的産生所帶來的飛躍就像是發達肌肉和大腦,前者在計算能力上大幅增加,後者創新組合建立好的算法。

AlphaGo:從直覺學習到整體知識

這項突破以及它實作的方式可能會對未來IA帶來對立的觀點:任一目前概念架構都是最好的選擇,随着健壯的機器變得更聰明,它們遲早會超過它們的人類制造者;或者這是一種迷惑,可能讓更健壯的機器和無助的人類陷入其中。

AlphaGo和DeepMind的開發人員可以在這困境中指出一條整體出路嗎?

來源分類法

借用斯賓諾莎的話,人們可以從考慮來源知識類别開始:

  1. 第一類是通過我們的感官(視覺,聽覺,嗅覺,觸覺)或信念(通過我們共同的“感覺”作為培育)來實作。這一類天生容易受環境和偏見影響。
  2. 第二類是通過内置推理,即符号表示的心理過程。其目的是普及和開放分析,但它無法保證與實際現實的一緻性。
  3. 第三類是通過哲學實作,它本質上将認知,直覺和符号表示結合。

然而對于第一點不會有太多的争議,第三類對哲學原理有廣泛的空間,從宗教到科學,集體意識形态,或精神超越。随着今天的知識橫跨智能裝置,并由群衆智慧驅動,哲學似乎更關注大資料而不是它原本關注的領域。

盡管(或者是因為)它的重點是第二類,AlphaGo和它的建立者的壯舉仍然可以為整個人工智能的努力帶來一些經驗。

表示分類法

如前所述,IA支援範式的有效性已經由指數形式增長的資料和處理能力支撐着。毫不奇怪,那些範式在知識來源,隐式感覺,顯式推理上與兩種基本的表示形式有關:

  • 基于符号表示的設計可以處理顯式資訊:資料被“解釋”成資訊,然後當做知識使用,用來主導行為。
  • 基于神經網絡的設計具有處理隐式資訊的特征:資料被“編譯”成神經元連接配接,他們的權重(可以了解為知識)根據行為回報疊代地進行調整。

由于該二進制性反映了人類的認知能力,建立在這些設計上的智能機器是為了将合理性與有效性結合:

  • 符号表示支援兩端的透明性和方式的溯源性,可以對目的性,實際性或社會性進行分類。
  • 神經網絡,在它們學習核心的幫助下,可以直接在資料上操作,加快了具體目标的實作,這基于支援知識,這些知識隐式地以權重連接配接呈現。

這種方法的潛能已經由基于網際網路的語言處理展現了:實際的關聯分析“觀察”了數以億計的話語,它們正在逐漸補充甚至取代基于Web解析器的文法語義規則。

在這一點上,AlphaGo有它的野心,因為它隻處理非符号的輸入,即圍棋高手玩家落子的集合(共約3千萬)。但是,這個限制也可以成為一個優勢,因為它帶來了同質性和透明性,使得算法有了更高效的組合:健壯的組合用來進行實際行動,使用最好玩家的直覺知識,聰明的組合用來進行推斷行動、計劃和政策。

教它們如何協同工作,可以說是這項突破的關鍵因素。

學習分類法

對于智能機器,應該可以預料到,它們驕人的成就完全取決于它們的學習能力。而這些能力通常分别運用到隐式(或是非符号)和顯式(或是符号)内容上,讓它們在同一個認知引擎的管控之下,就如人腦通常那樣,這也成為IA的長期首要目标。

實際上,這已經由神經網絡實作了,它将監督式和非監督式學習結合:人類專家幫助系統去其糟粕,然後通過系統自己百萬次的訓練來提高它們的專長。

然而,領先的AI玩家的成就已經揭露出了這些解決方案的局限性,即扮演最好人類玩家并打敗他們性質上的差距。而前者的結果可以通過似然決策得出,後者需要原始方案的開發,這就帶來了定量和定性的障礙:

  • 與實際動作相反,可能的動作沒有限制,是以在搜尋樹中以指數形式增長。
  • 原始計劃根據估值和政策制定。

通過單個方案克服這兩個挑戰,可以說是DeepMind工程師的關鍵成就。

掌握搜尋樹的廣度和深度

使用神經網絡對實際狀态評估以及來自于搜尋樹中以指數形式增長的廣度和深度的政策采樣。然而蒙特卡洛樹搜尋(MCTS)算法可以用來解決這個問題,用有限的能力擴大處理性能仍然隻能處理樹較淺的部分;直到DeepMind的工程師将MCTS運用到分層的估值和政策網絡上,成功解除了深度的障礙。

AlphaGo無縫使用了分層的網絡(即深度卷積神經網絡)進行直覺學習,強化,評估和政策,圍棋的棋盤和規則(與國際象棋一樣,無差異性移動和搜尋陷阱)的同質性使之成為可能。

從直覺到知識

人類是唯一能夠将直覺(隐式的)和符号(顯式的)知識結合起來的物種,人類具有這樣的雙重能力,将前者轉換成後者,然後通過後者的回報反過來改善前者。

用在機器學習方面的話需要監督式和非監督式學習的連續性,這應該可以通過神經網絡達到,這種神經網絡可以用來符号表示和處理原始資料:

  • 從顯式到隐式:為特定情境和目的建立的符号描述将被輸入到神經網絡之中,在目标環境的資料上進行測試和改善。
  • 從隐式到顯式:一旦通過百萬次在相關目标上運作對設計進行了測試和強化,将有可能對結果重新設計,用來改善符号描述。

然而深度符号知識的非監督式學習超出了智能機器的範圍,顯著的結果可以在“平坦”的語義環境下得到,比如,如果同一個語義可以用來評估網絡狀态和政策:

  1. 在百萬次落子中由人類專家觀察到的直覺部分的監督式學習。
  2. 自我對弈中的非監督式強化學習。
  3. 使用蒙特卡洛樹搜尋(MCTS)建構,評估和完善自我政策的規劃和決策。

沒有圍棋整體性的性質,将不可能有這種深度和無縫的內建。

美學評估和整體知識

圍棋的特異性是雙重的,定量側的複雜性,定性側的簡單性,前者是後者的代價。

與國際象棋相比,圍棋的實際位置和潛在落子方式隻能由整個棋盤進行評估,它使用了一個最具美學的标準,不會簡化成任意度量和手工制作的專家規則。玩家不會在詳細分析目前位置和評估可供選擇方案後再落子,而是根據他們的對棋盤的直覺。

是以,AlphaGo的行為會完全按照上面所說的第二層次的知識進行:

  • 作為遊戲玩家,它可以從現實考慮中分離。
  • 作為圍棋玩家,它不需要解決任何語義複雜性。

給予足夠的計算能力,DeepMind工程師的主要挑戰是教AlphaGo将它的美學直覺轉換成整體知識,而不需要定義它們的實質。

原文:AlphaGo: From Intuitive Learning to Holistic Knowledge

編譯:劉翔宇

責編:周建丁([email protected])

繼續閱讀