【OpenAI對标DeepMind】馬斯克要用開源對抗巨頭，現在卻飽受質疑

今年的 dota2 經典賽事 ti7 國際邀請賽讓 open ai 大火了一把: 他們研發的self-play 機器人在dota2 1v1 比賽中戰勝了人類頂級職業玩家 dendi，在這場頂尖的電競比賽中大放異彩。

提到open ai，一般都會稱“馬斯克的open ai” 。作為open ai 的最大投資人之一，馬斯克也在 twitter 上盛贊團隊在這次與人類玩家對決的dota 2 比賽中的英勇表現。

elon musk 發表推文稱贊 openai 的戰績，并其為“在電子競技領域首個擊敗人類頂級玩家的機器人”。

這場比賽結束之後，ai界讨論的一個焦點是：openai 的 bot 究竟有沒有連接配接 dota 的 bot api？因為如果連接配接了的話，那麼它就能直接獲得遊戲中的實時資訊，比如，不同角色之間的地理距離（以決定攻擊或者逃逸）。後來，open ai的greg brockman 證明，他們确實使用了bota的bot api，并且，某些技巧是他們自己手寫代碼，以硬程式設計的方式寫進agent中的。雖然他們确實也使用了一些試錯的技術，比如強化學習。總體而言，open ai 這次出戰dota 2 的機器人确實是有少量人為“指導”的。

巴斯大學遊戲ai研究員、經驗豐富的dota玩家andreas theodorou解釋了為什麼這會帶來不同結果。“dota的一個關鍵就是你需要計算距離才能知道一些[攻擊]的裡程”，他說， “api讓機器人能對範圍長短獲得暗示。是以你可以說：“如果有人在500米範圍内，就攻擊吧，”但人類玩家必須自己計算，通過試錯來學習。如果機器人能夠獲得人類玩家沒有的資訊，那麼就真的會給它們一個優勢。“在一個1v1比賽中，對抗一個像shadow fiend這樣的英雄，這一效果尤為顯著。玩家必須專注于在正确的時機展開攻擊，而不是總體戰略。

在當天接下來的比賽中，open ai 的機器人被人類玩家擊敗了50次，但是這個時候，關心這一人機對抗的人已經不多了。

外界認為，雖然dota2 等遊戲确實比圍棋的複雜得多，需要的技巧和能力也更多。但是 open ai 的機器人對人類玩家的這一場勝利意義遠遠比不上deepmind alphago戰勝人類圍棋專業棋手。

在技術方向和目标上，deepmind 和 open ai 有着巨大的相似性：目前都專注于對強化學習（reinforce learning)，目标都是開發出具有人類能力的通用人工智能，而他們目前訓練和研究人工智能的主要環境也都是遊戲。

蒙特利爾會議：open ai 誕生記

2015年12月一個周五的下午，特斯拉創始人musk 和 y combinator總裁sam altman 宣布成立新的人工智能（ai）公司open ai，當時他們正在參加 montreal ai 會議，當會議進入尾聲時他們宣布了該消息。

openai 現在擁有60名全職研究員和工程師。openai 關注長期研究，會在頂尖的機器學習會議上釋出論文、開源了一系列加速 ai 研究的軟體工具，他們還會公布研究部落格，以促進研究交流。

open ai 的主要業務有兩個：機器人、複雜的計算機遊戲和大量的計算機遊戲。機器人方面，聚焦于機器人操作，機器人的研究主要涉及三個層面，移動（locomotion）、導航（ navigation）和操作（manipulation）。

從研究上說，openai 主要做的是基礎研究，關注技術長期的發展，最有代表性的是強化學習（reinforce learning）。

關于openai，有兩個比較重大的事實：最大的投資人是馬斯克和 sam altman。截止 2017年5月17日，總共融資額已經超過 10億美元。

除馬斯克外，open ai 的創始人還有：sam altman、breg brockman、reid hoffman 、jessica livingston、peter thiel和wojciech zaremba。

sam altman 曾被《商業周刊》評為最優秀的年輕企業家，他是位置服務提供商 loopt的聯合創始人和ceo，該公司于2012年3月被預付借記卡業務公司green dot收購。2014年2月，sam altman 接替paul graham，成為yc的新掌門人。

breg brockman 前stripecto，現openai cto。

reid hoffman linkedin聯合創始人，曾經擔任過paypal進階副總裁。是矽谷最有名的天使投資者之一，曾經投資過60多家創業公司，包括facebook和 digg。

jessica livingston y combinator 創始合夥人。

peter thiel 對沖基金管理者，paypal的共同建立者之一，也是palantir的共同建立者和對沖基金clarium capital的總裁，以及暢銷書《zero to one》的作者。

用理想與情懷廣納人才

據内部人士透露，open ai 給的薪酬并不高，但它能提供其它的激勵：不用關心産品和季度盈利，可以專心探索面向未來的研究，最終與所有人分享大多的研究成果。開放一詞可以視為open ai的核心宗旨，也是其名字的來源。

open ai cto greg brockman 曾對wired透露，實驗室支付的工資沒有谷歌、facebook等企業給的多。brockman 還說 open ai 不想給他們太多工資，它會用股票期權來補償研究人員，最開始會用y combinator股票，未來可能會用spacex的股票。但是spacex和特斯拉不同，它現在還是一家私營企業。

wojciech zaremba 是波蘭人，專業是機器人。曾在谷歌大腦工作一年，在facebook ai 研究院工作一年，博士畢業于《紐約大學》，後加入open ai。

zaremba 加入open ai 後，谷歌和 facebook 都曾開出天價來挖他。但是，他在一次采訪中表示，正是“瘋狂的開價”讓他掉轉了方向，雖然他很尊重谷歌、facebook等企業，但他認為一些企業之是以開出高價格搶人，主要是想阻止open ai成立，守護他們自己的業務，這種認識使薩林巴更加推崇 openai 的宏大使命。薩林巴稱：“我意識到 open ai是最佳工作地點。”

open ai 成立後，其崇高的目标和理想的研究環境迅速吸引了一大批實力不俗的ai研究院，其中包括ian goodfellow（gan 理論的集大成者、後加入谷歌大腦）、andrej kapathy（後加入特斯拉）和 ilya sutskever 等。

ilya sutskever 師從hinton，是吳恩達的斯坦福研究小組博士後，谷歌大腦頂級研究者，加拿大史上第一位 google fellow，dnn research 創始人……ilya sutskever 在ai研究領域可謂“根正苗紅”，成績顯赫。目前，他的身份是 openai 研究主管。

open ai 的第一個正式辦公室

崇高的理想：用開放對抗巨頭

open ai 從成立起就标榜要對抗谷歌、facebook等巨頭的“技術壟斷”，以開放、開源的方式進行研究。

openai 的研究員們認為，ai 研究是一個純淨的世界，最棒的理念并不是靠下一個産品循環或者利潤驅動的——至少不完全由它們驅動。研究人員想讓ai更好，如果拒絕分享最新的研究成果，ai 就不可能變得更好。

在openai剛成立時，altman在接受媒體采訪時被問及：谷歌也在不斷進行開源，你們的開源與他們有什麼不一樣？他回答說，谷歌的确與公衆分享了許多研究成果。随着時間過去，随着我們逐漸接近那種超越人類智能的東西，谷歌還會與公衆分享多少成果是值得懷疑的。

altman表示，openai中研究的東西最終是會超越人類智能的。最重要的是，它會是開源的，任何人都能使用，而不是隻能被，比如說谷歌來使用。這個團體研發的任何東西都将對所有人開放。如果你拿去以後做了一些改變、讓它适應其他用途，你也不會有義務要和公衆分享你的成果。但是隻要是我們做的任何工作，都會對所有人開放。

現在大企業分享的ai研究成果更多了。這是一大改變，谷歌的改變尤其巨大，以前它喜歡将技術秘密禁锢在龐大的線上帝國内，近年來在機器學習上也進行了廣泛的開源，比如，tensorflow。不過，外界評論認為，盡管如此，為了占據未來制高點，谷歌的核心技術仍然是保密的。馬斯克等人的目标是将開放理念向前推進一步，他們不願意一家或者兩家企業控制未來的ai。

2016年4月28日，openai 對外釋出了人工智能開發平台gym。gym平台的基本理念是，研究者建立自己的算法後，可以把該算法置于不同的環境中進行測試，然後把測試後的基本算法釋出在gym的平台上，讓社群中的其他人看到。該平台現在已經與一些開放資源人工智能工具，例如谷歌的tensorflow展開合作。

openai的開源繼續進行，2016年12月釋出 openai universe。根據其官方部落格的介紹，這是一個能在幾乎所有環境中衡量和訓練 ai 通用智能水準的開源平台，當下的目标是讓 ai 智能體能像人一樣使用計算機。目前，universe 已經有1000種訓練環境，由微軟、英偉達等公司參與建設。

universe 通過一個通用的接口适用于各種場景：智能體通過捕捉螢幕的像素生成對鍵盤和滑鼠的指令來操作遠端桌面。場景需要 vnc 伺服器，universe 庫将智能體轉換為 vnc 用戶端。

universe 的設計目标是支援單個的 python 程序，以每秒60幀的速度并行驅動20個場景。每個螢幕的緩沖區是 1024×768，是以用外部程序直接讀取每一幀需要3gb/s的記憶體帶寬。他們用 go 寫了一個面向批處理的vnc伺服器，它可以作為python共享庫加載，并且逐漸更新每個場景的一對緩沖區。在嘗試了許多 vnc 伺服器、編碼器和無證書協定選項的組合之後，現在的組合能以60幀/秒的速度驅動幾十個場景，延遲是100毫秒——這些延遲幾乎都是伺服器端編碼引起的。

gym 和 universe的開源是openai 迄今為止較為代表性的兩個作品。不過也有人提出疑問，沒有資料開源，openai所謂的開放大業能否完整？

openai 同行者 deepmind

這個世界上，如果要找一家與openai類似的機構，那肯定是deepmind了。

deepmind被普遍認為是人工智能研究前沿的代表企業，他們研發的圍棋程式alphago也被認為是具有劃時代意義的。

值得一提的是，馬斯克正是這家公司的天使投資人之一。此前在有記者問馬斯克，為什麼在投資了deepmind之後又建立openai, 他的回答是：“我得強調，我并不是通常意義的投資者。我不尋求投資和财務上的回報。我給自己參與創立的公司投資，有時候是出于幫助朋友，有時候是因為我的信仰，也有的時候是因為我關心的事情。我并不是出于分散風險或者物質意義上的考慮。我對 deepmind 所謂的投資，不過是為了更好的了解人工智能，并且能夠時刻看到它的進展”。

來看看deepmind在遊戲上的開源，2016年12月，deepmind在官方網站上宣布開源智能體研究平台deepmind lab ：

deepmind 的 deepmind lab 是一個專為基于智能體的 ai 研究設計的，完全像 3d 遊戲般的平台。它從自己的視角，通過模拟智能體的眼睛進行觀察。場景呈現的視覺效果是科幻風格。可用的操作能讓智能體環顧四周，并且以3d的形式移動。智能體的“身體”是一個懸浮的球體，通過激活與期望運動方向相反的推動器實作懸浮和移動，并且具有圍繞其主體運動的，能夠觀察其旋轉時動作的攝像頭。示例任務包括收集水果、走迷宮、穿越危險的通道且要避免從懸崖上墜落、使用發射台在平台間穿越、玩雷射筆、以及快速學習并記住随機生成的環境。

下面是智能體在 deepmind lab 中如何感覺并與世界互動的圖示：

2017年8月10日，deepmind在官方部落格上宣布開源星際争霸2 研究訓練平台sc2le。這套工具元件将加速即時政策遊戲星際争霸 2 中的 ai 研究。

openai聯手deepmind，建立可控制的人工智能

openai 在做什麼？一句話，他們在努力建立安全的通用人工智能。

這裡有兩個關鍵詞：安全，通用。

通用人工智能又稱強人工智能，簡單來說，就是讓機器自己學習像人一樣地去行動。而安全，則是 openai，這個由特斯拉 ceo 伊隆·馬斯克成立的人工智能實驗室着重強調的一點。

比如 openai 的研究人員 dario amodei 正在開發一個能夠自己玩“賽船冠軍賽”（coast runners）遊戲的系統，這是一個挺老的賽船電子遊戲。哪艘船得分最高且能劃過終點，就是冠軍。

然而結果卻讓人大吃一驚：賽船對螢幕上的綠色小物件（“吃”掉這些小物件就可以得分）太執着了。比起到達終點，ai 控制的賽船會瘋狂地去撈分。這造成了無盡的循環，和其他船相撞，滑進石牆，不停地起火。amodei 先生燃燒的賽船正是 ai 技術危險性的完美縮影。研究者開發出了自己進行任務學習的機器，其中最有名的就是橫掃人類圍棋世界的 alphago。然而随着這些機器經過長時間的資料分析來進行訓練，它們可能也發展出了意料之外的、人類不希望見到的、很可能有害的行為。

openai 的一個重要使命，正是在發展通用 ai 的過程中，最大程度上避免這種情況的發生。

在 openai，amodei 和同僚 paul christiano 一道，正在開發不僅能通過數小時的試錯進行任務學習的算法，同時在這一過程中還能接受人類的引導。他們相信，這類算法——人類和機器的混合——能夠保證 ai 系統是安全的。

多年以來，elon musk 和其他一些專家、思想家，也包括一些技術專家，一直在警告 ai 可能脫離人類的控制，産生違背他們設計者初衷的行為。而像 amodei 這樣的研究者則在努力走在風險的前面，從某種意義上說，他們将 ai 系統看作是需要父母引導的孩子。

在 ai 領域，許多專家相信強化學習是讓機器通過不斷的試錯學習特定任務，進而實作人工智能的途徑。研究者為機器設定獎賞，機器随機開始執行任務，不斷地去獲得最大化獎賞。比如在賽船遊戲中，獎賞就是更多的分數。

如果 ai 能夠學會在遊戲《橫行霸道》中開一輛車，研究者們相信，ai 在真實世界中也能學會去開一輛車。如果它能夠用網頁浏覽器和其他 app，它也能學會了解自然語言，甚至展開對話。在谷歌，在 uc 伯克利，機器人已經開始使用此類技術學習執行簡單任務，比如開門、撿東西了。

這就是為什麼 amodei 和 christiano 正在努力開發能夠接受人類指導的強化學習算法。這能夠保證 ai 不失控。

最近，他們和 deepmind 的研究者一起，釋出了一些相關的研究報。這兩家頂級實驗室此前從未開展過合作，他們如今合作開發的算法被當作是 ai 安全性研究的重要一步。

uc 伯克利的研究人員 dylan hadfield-menell 表示，這些聯合研究驗證了以前的一些想法，在未來 5 到 10 年都是非常有前景的研究。

和 openai 、deepmind 的開發團隊緻力于 ai 安全的研究一樣，谷歌大腦也在做類似的事情，還有 uc 伯克利、斯坦福大學也在這些大企業的實驗室合作，緻力于此類問題的研究。

今年6月，openai 還曾與deepmind 聯手釋出了合作計劃的第一項研究，讓沒有技術經驗的人類給強化學習系統提供回報，進而避免事先為系統指定目标的步驟。在某些情況下，這種方法隻需要30分鐘的回報就足以訓練系統，包括教會系統一個全新的、複雜的行為，例如使模拟機器人做後空翻。

大約用了900條來自人類的回報來教這個算法做後空翻

質疑聲：open ai 成為馬斯克的ai人才後花園？

今年6月，open ai 著名研究員 andrej kapathy 加盟特斯拉，但是這一消息卻讓馬斯克飽受質疑。

hacker news上，有人開玩笑地評論，andrej kapathy 是從馬斯克的一家非盈利組織（non-profit）組織，跳槽到了馬斯克的一家盈利公司（own for profit ）。

andrej kapathy 畢業于斯坦福人工智能實驗室，博士師從李飛飛教授，在谷歌大腦、deepmind 實過習，也曾與吳恩達一起共事，業界幾大深度學習實驗室都待過，更重要的是，他樂于而且善于分享自己的經驗和見解，在推特和medium上非常活躍，有ai “網紅”之稱。

今年6月，特斯拉釋出官方消息，稱andrej kapathy加入特斯拉，作為新任命的 ai 及 autopilot vision 總監的 karpathy 将直接向 musk 彙報，但也會與特斯拉的 jim keller 緊密協作，後者曾負責特斯拉的 autopilot 硬體部門，如今統管自動駕駛汽車司機輔助功能的軟體及硬體部分。

針對此事，有網友在網上評論說，open ai 已經成為馬斯克招攬ai 人才的“後花園”。或許是因為一貫宣揚“人工智能威脅論”，媒體對馬斯克建立open ai 的初衷一直抱有懷疑。有媒體此前報道，在open ai成立的會議上，馬斯克之是以現身，主要是因為他和 altman 私交甚笃，還因為他自己的企業經營多項業務，ai對于這些業務來說至關重要，對于未來的世界也至關重要。自動駕駛汽車必然會到來，汽車需要ai。spacex要将人類送入太空。

一些人警告說一旦系統足夠強大，可以自行學習，人類可能會失去對系統的控制權。在警告者中，馬斯克的噪門算是最高的了。

在hacknews上，網友unitybyfreedom說：“openai 一直都是musk的一個人才管道：他使用其他人的投資來吸引人才，然後再把這些人才放到自己的公司裡去。我認為，這對員工和musk 來說都是一件好事。我不确定open ai 還有多少投資者，我很想知道他們在投資的時候都在想什麼。”

對musk的質疑也蔓延到了對openai的質疑身上：

使用者 randcraw 表示，openai 的研究計劃實際上并沒有大多數人想的那麼詩情畫意，因為a）他們從未明确承諾過“改變世界”，而且b）他們的項目最終必須為既得利益者服務。

他不喜歡 openai 的長期任務計劃。“保持 ai 開放”（keeping ai open）看起來相當平淡，難以在如今這樣有目的性和動态的文化氣質中長存。或許這樣漫無目的的蜿蜒前行的結果沒有達到 ak（指 andrej karpathy）最初的希望。

或者，也許特斯拉能比 kitt 拿出更多的東西？馬斯克的野心那麼大。我懷疑 karpathy 被各種甜蜜的前景給迷昏了頭。

還有人說，open ai 很奇怪，他們的研究一般比其他頂級實驗室的影響力更小——不是指在媒體上的影響力，雖然團隊中确實有很多人才。openai 迄今最重要的研究成果就是 infogan，其他都沒有那麼驚豔。另一方面，開源的宗旨保持得很好，openai gym/universe 以及現有的測試模型十分出色。

此外，還有傳言說，openai 有工程師裁員的情況出現。不過，這與前面說的又是兩碼事了。

【OpenAI對标DeepMind】馬斯克要用開源對抗巨頭，現在卻飽受質疑

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希