IBM蘇中：怎樣利用深度學習、增強學習等方法提高資訊處理效率

以下是講座視訊實錄，後附文字版内容：

文字版幹貨整理如下：

IBM研究院研究總監蘇中

蘇中：美國的達特茅斯于61年前提出人工智能一詞，而人工智能的曆史可以向前追溯很長的時間，甚至中國人發明算盤的時候就在思考将計算的機器演化成智能。這一演化程序與人類認識客觀規律的過程相類似。通過符号推理，人類展現出早期的智能行為，并認識到世界的規則。以三段論為例，我們在認識世界時，先設定一個大前提或者一個更大的公理，而每件事情都有一個特例，根據這個公理和特例就可以推出一個結論。在很多人工智能的演化中，這方面已取得了非常大的進步，如定理證明。

這方面的技術同樣應用在産業界，以專家系統為例。在醫療行業中我們需要考慮一個好醫生所具備的特點，到底是他診斷的病人比較多還是他遇到的疑難雜症比較多？一般而言，一個疾病、一個好醫生大概可以總結為幾個類别。我們進行資料分析通常把一個大問題劃分到一個小的問題空間，然後在小的問題空間領域求解。

專家系統采用同樣的角度，如醫療專家對一個病種的病人進行分類，符合分類的病人具有怎樣的表征，通過什麼樣的檢驗方法得以确診，這類病人一般有幾種治療方式，其中每種治療方式對應各自的優缺點，需考慮在什麼情況下用什麼方式治療。一般來講一個好醫生把一個病種稍微的梳理一下可能會累積幾十條規則，那麼幾個醫生或幾十個該行業的專家醫生就能梳理出一個完整的知識體系，如《臨床醫療指南》。按照《臨床醫療指南》的整個流程，我們能夠很容易地确定病人該做什麼樣的檢查，通過檢查能得到什麼結論，得到結論以後有什麼治療手法，以及在整個病程中該做一些什麼樣的觀察。

這樣的專家系統是非常有效的，在醫療行業也有很好的應用。但專家系統同樣面臨着一大挑戰，即固化的知識體系不能應對實際繁雜的問題。這種基于資料普适性的挑戰使得人工智能的發展進入了一個瓶頸期。

人工智能的迅速發展得益于大資料的爆發，在這場爆發中，機器學習可以自動地從資料裡尋找規律、，規則同時随資料的改變而自動發生變化。由此，人工智能迅速在網際網路方面得以應用，包括搜尋、推薦、語音識别等等。

下棋是一個較容易驗證計算機是否具有智能的方式，因為可能隻有人類會下棋，另外下棋有很多推理過程，如對于棋局的判斷等。随着伴随計算機習得經驗的增多，它的智能水準就得以提高。下棋本身是相對比較容易了解的問題，因為棋的規則是開放的，不管是國際象棋、中國象棋、跳棋還是圍棋，規則是非常清晰的，在一個清晰的規則系統下，輸赢很容易判斷。

由于雙方的棋力都能在棋盤上顯示出來，再加上清晰的評價函數、規則系統和資料，我們能比較容易地設定人工智能的系統。以IBM的深藍系統為例，當把一個棋面變成數值時，我們就可以讓機器去做搜尋算法，而每一個棋子在不同方向都有被選擇的可能，就建構出搜尋素樹算法，再通過α-β剪枝的方法就可以迅速得到結論。當時深藍就是通過這種方式對國際象棋做出很好的評估函數，由于這些評估函數大多來自國際象棋大師，并且計算機算法搜尋很深入，我們就可以讓計算機打敗像卡斯帕羅夫這樣的大師。

在用象棋的這種方法來解決圍棋問題時卻遇到很大的挑戰：一是圍棋的棋盤是19乘19，有361個空間可能性，其搜尋空間達2.08X10 107 ，那，那麼搜尋素樹就會相當複雜；二是圍棋的每個子是一樣的，無法通過棋面盤面子粒的多少判斷它的狀态；三是圍棋比賽中會出現一步臭棋，全盤皆輸的情況，即圍棋的評價函數值不連續，在某一點一個子粒的變化可以讓整個棋面的評估變得很複雜。蒙特卡羅搜尋樹為解決這些問題提供了思路：雖然我們沒有辦法判斷目前盤面的情況，但可以讓系統随機下棋，拿勝率作為評估标準盤。随機數可以從某種意義上描述評估值，進而解決怎樣評估一個棋子的問題。

當計算機算到足夠的深度時，這樣的方法會有較好的效果。但是它的速度空間還是太大，那有沒有什麼辦法可以降低呢？通過深度學習的網絡來評估棋局就是一種好方法。我們用深度學習算法可以将評估變成一個深度學習的任務，以目前的對局作為輸入，輸出在某一點上的值，也可以提高預測精度。

那把蒙特卡羅搜尋樹和CNN結合能産生什麼樣的化學效應呢？如果用神經原網絡可以預測專業棋手在對局中下一步棋的位置，我們就可以讓搜尋空間變小了。

AlphaGo把這個事情推到了極緻，他們不光讓棋的搜尋寬度變窄，更做了政策網絡，來判斷目前棋局黑白雙方獲勝的機率有多大，但遇到的挑戰是這個資料比對局的資料要少，對局的每一步都可以作為訓練資料，但輸赢一盤隻有一次，訓練資料有點稀疏。是以他們在這個工作上使用了增強學習的方法，即讓一個戰鬥力不錯的系統，或者兩個系統互相對戰産生對局，然後用最後的輸赢結果作為機器的樣本學習。結果就是這個系統戰勝了李世石，非常了不起。

AlphaGo zero又是一個非常重要的突破，一是 AlphaGo zero完全從零開始，二是 AlphaGo zero沒有用任何的方式評估，隻用了對局本身的棋盤資訊。它的輸入隻有圍棋的規則，之後機器就自己跟自己下棋，以此确認模型。在深度學習裡面它把原來13層的網絡變成40層，而且把原來CNN的網絡變得更為複雜，同時把所有的人類知識都抛掉了。但在這一過程當中，它的訓練非常快，第三天這個系統跟李世石的系統對決可以完勝，過了21天它就打敗了戰勝柯潔的那個系統。從某種意義來講，像下棋這樣在規則明确、狀态空間有限、容易評估、所有資訊透明的情況下，用增強學習的方法是可解的，而且它的解法可以比人做的還要好。

那這樣的方法能不能解決其他問題呢？現實當中，很多問題可能沒法解。增強學習是大量資料的模拟，通過模拟的結果來調整參數。舉一個醫療上的例子，我們能拿一個病人去模拟嗎？給他吃不同的藥看他會發生什麼問題？很難。另外，資料的來源資訊不是單元的，各方面的因素都會影響到病人，如基因、飲食、生活習慣、家人、天氣等，這些因素不可能在一個簡單的環境裡被算出來，每多一個次元的參數都需要更多的資料來訓練。

用多模型聚合的方法是不是可以放在行業裡呢？舉個例子，比如水管的優化問題預測。曆史上有一些數學模型來預測管道哪個地方容易發生鏽蝕，我們該在哪個地方打開了去看，但用幾個模型、用不同的參數去優化，可以取得很好的效果，而且産生了很大的經濟效益。

又例如，在電商平台上怎麼提高電商的經濟效益呢？在電商網站上買東西要經過搜尋、對比、加購物車、看評論，這些步驟就是一個決策鍊，每個鍊條之間都有轉化率，我們怎麼提高電商的銷售額呢？最好的推薦算法是什麼呢？在這個領域裡面，采用協同過濾算法是最有效的。

協同過濾有一個方法是矩陣分解，我們可以把使用者作為一類，商品作為一類，比方說有6億使用者，1億商品，就是一個6億乘1億的矩陣。我們可以把這個矩陣分解成M乘K的矩陣，當然這兩個矩陣之間不會完全一緻，可能有一些像壓縮的損失。但是矩陣分解可以減小計算量，也可以根據使用者跟使用者之間的相似度、商品和商品之間的相似度做智能推薦。也就是說在這裡面用一個多元K，用好多階層的K來做優化，以達到最好的效果。

在新的時代裡，由于多了資料次元，我們可以解決很多新的問題。例如皮膚癌的識别，每個醫生能看到的案例都是有限的，一個好的大夫一天可能看5個案例就已經很了不起了。但機器可以學了幾十萬個案例以後做出判斷，這個場景就是拿自己手機拍了照片以後發到系統，系統做出風險評估，以判斷患有皮膚癌或者黑色素瘤的機率有多大。

回到今天的主題，我們從下棋裡面看到一些計算機的成長，包括它能用更多的資料，也包括計算能力的增強，新的算法的展現。如果面對的問題是可以解決的，那這些能力就可以應用到現實當中的行業裡。但是現實當中的問題往往比我們像下棋這樣的問題要複雜得多，是以我們講這種算法還有很長的路要走。

我們很多人都在擔心機器人要替代人類的工作，但是其實機器人走路時還在以各種各樣的方式摔倒。實際上這些都是世界上最好的機器人在比賽。三年前有一個比賽，場景是以福島核電站的輻射場景作為藍圖，機器人可以開車，到達一個地方可以上樓梯，進去以後找到閥門，關上指定的閥門。它可能會使用一些器械，包括使用電鑽等，這些都不複雜。當年的冠軍是南韓一個大學，他們做的系統相對來說更容易，就是四點着地，相當于跪着，前面膝蓋的地方有一個像履帶的東西，是以它走路的時候像坦克車一樣行走，不容易摔倒。從某種意義上來講也驗證了一個經典，用最合适的方法去解決一個問題，也許成熟的技術或者是一些簡單的技術在現實當中更有效。

人工智能确實會有很大的發展，因為大資料的變化改變着很多産業，對從金融行業到醫療行業、教育行業都有很大的幫助。人們經常講的“人工智能威脅論”事實上有很多的局限性，無論是從應用方法本身，還是問題本身。實際的問題很複雜，參數很多，而現在的方法都是簡化的方法。當我們回到真正的應用當中會發現，還有很多最基本的東西需要攻克。

我們用計算機在圖象識别領域裡面做得很好，但它仍然是有限的資料集，比方說我可以用100萬張的圖檔訓練出一個機器人識别貓，識别狗，它能做的比人還要準，但是如果把資料集換成漫畫，機器就識别不出來，但是孩子可以識别出來。孩子真正了解這是個蘋果，這是個小貓，那是真正的了解，而大資料的智能在某種意義上不是真正的了解。另外，智能的本身是真正了解人，人最複雜的不光是表象，還有很多情感，這對智能來說是不小的障礙。

迄今為止，我們看到智能化的門已經打開，真正能夠改變多少，可能需要不斷的嘗試。因為并不是所有的問題都可以用大資料解決。

原文釋出時間為：2017-12-4

IBM蘇中：怎樣利用深度學習、增強學習等方法提高資訊處理效率

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希