
新智元報道
編輯:David
【新智元導讀】DeepMind 首席研究科學家David Silver的明星氣質與他安靜、謙遜的性格形成了鮮明對比。這位讓AI自學下圍棋玩遊戲的強化學習大牛認為:比起AI的威脅,人類智能産生的後果可能更可怕。
在 DeepMind 首席研究科學家、倫敦大學學院計算機科學教授David Silver 看來,遊戲是激發創造力的關鍵,尤其是對AI而言。
Silver曾小時候參加過全國拼字遊戲比賽,之後他繼續在劍橋學習并共同創辦了一家視訊遊戲公司。
後來,在獲得人工智能博士學位後,他帶領DeepMind團隊開發了 AlphaGo,這是第一個圍棋比賽中擊敗世界冠軍的AI程式。
對于Silver 來說,遊戲是了解人類和人工大腦如何自行學習以實作目标的實驗場。
對于圍棋AI AlphaGo來說,向程式提供有關人類在不同位置的決策,再讓AI模仿,這種學習被稱為「監督式學習」。實作AI程式通過自對弈中學習,這種方式稱為「強化學習」。
然後,在 AlphaGo 和世界冠軍的關鍵比賽中,Silver突然想到:也許,機器的決策根本不應該受到人類的影響。
這個想法最終成為 AlphaGo Zero 的開端,它是 AlphaGo 的繼任者,在完全不接收人類知識的情況下,隻靠強化學習,從遊戲規則出發學習如何下好圍棋。
後來,AlphaGo Zero 與 AlphaGo 對弈 100 局,零封了自己的「老大哥」。
2020年4月,David Silver因在「計算機遊戲方面的突破性進步」獲得了2019年ACM計算獎。
在頒獎儀式上,時任ACM主席 Cherri M. Pancake表示:
「很少有其他研究人員像 David Silver 那樣,在 AI 領域引起如此多的令人興奮的成果。他對深度強化學習的見解已經從遊戲中鋪開,應用于多個領域,包括電網效率的提升、降低資料中心的功耗以及為歐洲航天局規劃太空探測器的軌迹等。」
另外,Silver是英國皇家學會Fellow,也是在AI領域首位獲得門薩基金最佳科學發現獎的科學家。
Silver的明星氣質與他安靜、謙遜的天性形成鮮明對比。在本次采訪中,Silver 談論了遊戲、創造力的意義,以及AI在避免氣候變化、病原體感染、大規模貧困和環境災難等方面的應用潛力。
以下是訪談内容:
你小時候玩遊戲的方式就與其他孩子不一樣嗎?
我那時候參加過全國學校拼字遊戲比賽,我還記得一些有趣的時刻。
有一次,在最後一場比賽結束時,我問我的對手,「你确定要拼這個詞嗎?為什麼不拼一個得分更高的詞呢?」 他改變了自己的拼法,赢得了比賽和冠軍,這讓我非常高興。
比起赢得比賽,我更着迷于比好一場比賽的意義。
您是如何将對遊戲的熱愛轉化為一份真正的工作的?
後來,我接觸到了國際象棋,遇到了Demis Hassabis(DeepMind 的聯合創始人 。那個時候,他是世界上同齡最強的少年棋手。
當時他零花錢不夠時,就會來我所在的鎮裡,參加比賽,赢走 50 英鎊的獎金,然後回家。後來,我們在劍橋認識了,并一起成立了一家遊戲公司 Elixir,現在我們一起回到了 DeepMind。
這種對遊戲的迷戀,教會了你解決問題的哪些方面?
一方面,我們相信自己擁有所謂「創造力」的特殊能力,而AI算法并沒有這種能力。實際上這是一個謬論。
現在,在 AI 中已經看到了創造力的端倪。2016年 AlphaGo 對陣李世石的第二局比賽中,AlphaGo執黑下出的第37手,圍棋社群中就認為創造力十足,甚至超出了當時人類職業棋手的了解。這說明,AI的确嘗試了一些非同以往的新東西。
但是,人類可以将這種廣泛的創造力應用于任何事物,而不僅僅是在遊戲中嗎?
整個試錯學習的過程,比如嘗試自己去想辦法,或者讓AI自己去想辦法,如何解決問題,這都是一個創造性的過程。AI從一開始什麼都不知道。然後會發現一件新事物、一種創造性飛躍、一種新模式或一種新想法,這有助于比以前更好地實作目标。
現在,你掌握了玩遊戲、解謎或與人互動的新方式。這個過程實際上是成千上萬個小發現一個接一個累計而成的。這才是「創造力」的本質。
如果AI算法沒有創造力,就會陷入困境。AI需要有能力為自己嘗試新的想法——那些人類沒有告訴它們的想法。這應該是未來研究的方向,以繼續推動通過自我嘗試得出「新點子」的系統。
許多人認為,計算機隻能在人類業餘水準上下圍棋。你有沒有懷疑過自己進步的能力?
當我參加 2016 年 AlphaGo 比賽抵達南韓時,看到了一排排的攝像頭,我聽說當時有超過 2 億人在網上觀看,我想當時想「等等,這真的能行嗎?」
對手李世乭是一位天才的世界冠軍,他會嘗試一切手段,将AI程式帶入一般不會發生的奇怪情況。
我感到很幸運,我們經受住了那次考驗。後來我問自己:“能不能退一步回到基礎,了解一個系統真正為自己學習意味着什麼?” 為了找到更純粹的東西,我們放棄了AI模型中的人類知識,開發出了 AlphaZero。
幾千年來,人類已經為圍棋制定了衆所周知的政策。當 AlphaZero 迅速發現并拒絕了這些有利的政策時,您是怎麼想的?
我們設定了原版 AlphaGo 下錯的位置(與人類職業選手相比)。我們認為,如果能找到一個讓AI自己找到正确位置的新版本,就算是成功了。一開始,我們取得了巨大的進步,但後來似乎就不行了。我們認為AI并沒有自己找到正确的 20 到 30 手的位置。
與我們合作的職業選手樊麾花了幾個小時研究這些着法。最後他說,是職業選手下錯了,AlphaZero 是對的。AI找到了解決方案,重新評估了最初被歸于「錯誤」的棋。我意識到我們有能力推翻人類認為的标準知識。
這之後,你主持開發AlphaStar,讓AI玩《星際争霸2》。為什麼從圍棋跳到了電子遊戲?
圍棋是一個相對狹小的領域。要想從圍棋入手,擴充到人腦的能力範圍需要大量的步驟。我們嘗試更複雜的次元,那些人類做得好,但AI做不好的大量領域。
從AlphaGo到AlphaStar, 實際上是個自然的發展。與人類一樣,AI系統隻能看見地圖的某個部分。這就不像下圍棋或國際象棋,能看到對手和自己的所有棋子。遊戲中隻能看到控制對象附近的資訊,你必須偵察以擷取資訊。這更接近現實世界中發生的事情。
最終目标是什麼?
我認為AI代理的能力與人類大腦一樣廣。雖然目前我們還不知道如何才能完全實作大腦的功能,但在人腦中有存在的證據。
完全複制人腦嗎?你真的認為這很現實嗎?
我不相信對大腦的神奇、神秘的解釋。
在某種程度上,人腦是一種算法,它以強大而通用的方式接受輸入并産生輸出。我們了解和建構人工智能的能力有限,但這種了解正在快速增長。今天,我們擁有能夠破解了圍棋等狹窄領域的AI,也有了可以了解和産生自然語言的模型。
那麼,你認為人AI的能力沒有上限嗎?
現在我們才剛剛開始上路。想象一下,如果再經曆 40 億年的進化,我們會是什麼狀态?也許我們會擁有更複雜的智能,可以做得更好。AI和這有點像,這個過程沒有限制,因為世界在本質上是無限複雜的。
那麼,會有上限嗎?在某些時候,實體極限的确存在,是以并非沒有界限。最終,你會用盡了宇宙中的所有能量和所有原子來建構計算裝置。但相對于目前來說,實際上可以視作是無限的。超越人類智能,這個範圍是很廣的。
斯蒂芬·霍金擔心機器智能會産生可怕的意外後果。你有類似的擔心嗎?
比起這個,我更擔心人類智能的意外後果,比如氣候變化、病原體、大規模貧困和環境災難。
對AI的追求應該帶來新技術、更深入的了解和更明智的決策。AI有朝一日可能成為我們避免此類災難的最佳工具。但是,我們應該謹慎行事,制定明确的規則,禁止不可接受的AI應用,例如禁止開發自主武器。
現在,你通過遊戲AI的成功應對了這些巨大的挑戰,但有沒有失望過?
嗯,監督學習已經産生了巨大的主流影響。大多數來自谷歌的大型應用程式都在系統的某個地方使用監督學習。
目前我的一個失望是,我們還沒有發現通過強化學習對自學習系統産生這種程度的影響。在未來,我希望看到能夠在虛拟世界中以真正實作我們目标的方式與人互動的自學系統。例如,一個為自己學習實作目标的最佳方式的數字助理。那将是一個美麗的成就。
你有工作的個人目标嗎?
在與李世石的AlphaGo比賽中,我走到比賽場地外,發現一個圍棋選手哭了。我以為是在難過,但實際上他并沒有。
在這個他全心投入的領域,AlphaGo 正在下出他從之前未意識到的棋。這讓他感受到了一種深刻的美感。
以我的圍棋水準,還不足以完全體會到這一點。但我們應該努力在能感覺到的一切地方都建立類似的智能。
我認為應該這樣開發AI智能,不是因為AI做了什麼或AI給我們的幫助多麼多麼大,而是因為,智能本身就是一件很美麗的事情。
https://thebulletin.org/2022/01/deepminds-david-silver-on-games-beauty-and-ais-potential-to-avert-human-made-disasters/