中國人工智能學會通訊——從更新版的AlphaGo看未來的強人工智能時代

作為最古老的競技遊戲之一，圍棋吸引着一批又一批的人類智者，對其進行前赴後繼的探索。圍棋當中雙方的資訊完全公開，理論上必然存在一種必勝政策。而掌握這種必勝政策者，就是人們心目中的“圍棋上帝”。必勝政策的第一步棋，又被稱作為“天元一目”。由于圍棋每一步都有着比國際象棋等其他競技遊戲更多的走法，導緻尋求圍棋最佳走法不可避免地陷入組合爆炸的局面。是以，無論是人類，還是目前的計算機都無法找到必勝政策。正是如此，圍棋這種必勝政策深深地隐藏于廣闊的未知之中，吸引了一批又一批智者在不斷追尋。

随着網際網路的普及和圍棋教育訓練體系的完善，現代圍棋選手的水準已經遠超過了古代棋手。即便如此，一位著名的日本棋手說過，如果“圍棋上帝”存在的話，那麼現代頂尖棋手與“圍棋上帝”仍存在讓二子的巨大差距。“圍棋上帝”一直存在于棋手們的想象當中，成為棋手們畢生追求的目标。AlphaGo 的更新版本 Master 這一次重新出現在公衆視野面前，以 60 戰全勝的戰績橫掃了現役職業頂尖高手，包括柯潔 / 井山裕太 / 樸廷桓這三位中日韓現役

第一人。從這 60 盤棋來看，Master 已充分展現了自己在計算上的優勢，而職業棋手們對局後也都紛紛表示跟目前這位“Master”差距太大。柯潔在自己的微網誌上寫下了這樣一段話：“人類數千年的實戰演練進化，計算機卻告訴我們人類全是錯的。我覺得，甚至沒有一個人沾到圍棋真理的邊。但是我想說，從現在開始，我們棋手将會結合計算機，邁進全新的領域達到全新的境界。”可見，目前更新版的 AlphaGo 是最接近職業棋手想象中的“圍棋上帝”，讓人們真正感受到了“上帝視角”。

根據之前在 Nature 上發表的 AlphaGo的論文來看，AlphaGo 并沒有采用暴力搜尋的方式來尋找最優方案，而是采用經過大量棋局訓練的政策神經網絡和價值神經網絡來搜尋勝率最大的走法。也就是說，如果 AlphaGo 真的是“圍棋上帝”，它通過啟發式搜尋的方式找到或者逼近了必勝政策。這似乎預示出一個令人振奮的事實：深度神經網絡有可能找到任何公開資訊問題的最優解！果真如此，這是否意味着深度神經網絡可以解決人類智慧能夠解決的很多問題，甚至遠遠超過人類。無獨有偶，最近 Google 在另一個人工智能項目中，利用深度神經網絡來識别唇語，其正确率遠超過人類唇語專家。其實，以 DeepMind 為代表的人工智能正在向更多的領域滲透，人工智能的廣泛應用直接催生了人類社會的第四次工業革命。

當然，深度神經網絡的研究依然任重道遠。雖然，各種新設計的深度神經網絡不斷地重新整理了機器學習的水準，但還沒有人能從理論上完美解釋其隐含的機理。目前，對深度神經網絡有比較深刻的理論分析的研究工作，當屬 NIPS 最新發表的一篇論文，論證了線性神經元的深度神經網絡在求解最優化問題上的理論正确性。而目前經常用到的 CNN（卷積神經網絡）和 RNN（循環神經網絡）等都遠比線性神經元要複雜。同時，深度神經網絡由于需要大量的訓練樣本的植入，在訓練過程中需要不斷地調整參數，來獲得想要的輸出。比如，AlphaGo 的監督式學習訓練出來的政策網絡，就需要人類的棋局作為訓練樣本，而且訓練過程中也需要人工設定特征參數。在這樣的情況下，神經網絡與世界之間的對應關系，仍然是人為設定，而不是神經網絡自主生成的。此外，深度神經網絡還不具有邏輯推演的能力，而是搞超大規模

的訓練資料來拟合真實場景。以 AlphaGo為例，AlphaGo通過學習了幾千萬局的對弈，并對這些局面進行統計分析，然後才達到了目前的棋力。但人類頂尖棋手通常要達到同等程度的棋力，隻需要下幾千盤棋，不到 AlphaGo 的萬分之一。是以，AlphaGo的學習效率仍然十分低下，這說明，它仍然沒有觸及到人類智能中最本質的部分。也就是說，目前的神經網絡還不具有推演的能力，不像人類能夠從少量的案例中學習到現象背後的内在規律，并且将規律推廣到更多的場景當中。舉個通俗的例子，我們常說聰明的人學什麼都很快，也就是說人類可以将不同問題上的經驗遷移到新的問題上，但是目前看來，深度神經網絡還不具備這樣的能力。

目前機器學習界的另一個流派——機率圖流派，或許更符合人類的思維習慣。它将内在邏輯利用機率關系設計到模型當中，然後利用少量的資料就能訓練出可以拟合大量場景的模型。譬如，Nature 的一篇論文就是利用機率圖模型模仿人類書法，并通過圖靈測試。不過，目前深度神經網絡實在太過熱門，導緻了機率圖流派一直沒有得到充足的媒體曝光。不過可以想象，未來的強人工智能很有可能是二者的有機融合。雖然目前相關研究寥寥無幾，但是其中蘊含的可能性還是非常值得我們期待的。

“圍棋上帝”Master 的出現，表面看起來是機器的勝利，其實背後隐藏着人類

的智慧，說到底還是人類的勝利。期待通過人類科學家的不斷努力探索，強人工智能時代盡早到來。

北京工業大學教授，博士生導師，長江學者特聘教授，國家傑出青年基金獲得者。中國人工智能學會常務理事、科普工作委員會主任。長期從事神經網絡結構分析與自組織設計、計算智能與智能優化控制等研究工作，在智能特征模組化、自組織控制和多目标動态優化方面取得了系列創新性成果。

中國人工智能學會通訊——從更新版的AlphaGo看未來的強人工智能時代

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普