天天看點

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

作者:海外獨角獸
OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20
OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20
OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

作者:Lex Fridman

編譯:haina、zhipei

編輯:Siqi

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

LLM、AIGC 的浪潮将 OpenAI 推到了台前,這家創立不到 10 年的公司肉眼可見地将整個科技界卷入新的範式遷移之中。OpenAI 可以說是幾個天才科學家、工程師在資本支援下堅定不移地探索 AGI 的結果。在海外獨角獸團隊對 OpenAI 的研究、成員訪談中,我們印象最深刻的一點是 OpenAI 内部自上而下對于 AGI 的信仰,也正是在這樣的信仰之下,過去 7 年時間,在 Greg Brockman、Ilya、Wojciech Zaremba 帶領下,OpenAI 也沿着自己的路線圖進行漸進式探索。

本篇文章編譯自 Greg Brockman和 Lex Fridman 在 2019 年 4 月的一次訪談。Gerg Brockman 既是 OpenAI 的核心創始人之一,也是 OpenAI 重要的靈魂人物,在 OpenAI 的人才招聘、願景塑造、内部 Infra 建構、工程文化打造等方面提供了決定性作用。

在這篇訪談的兩個月前,OpenAI 剛剛推出了 GPT-2,Greg 認為 GPT-2 還可以在未來被擴大到上千倍,雖然不确定不知道最終會得到什麼,但 GPT-20 的能力一定是實質性的。而 AGI 的發展要比 Greg 預測得更快:三年後,GPT-3 就已經将 AGI 的願景帶入現實。除了驚訝于 Greg Brockman 的“預言家”, 在回看曆史的過程中,我們也能夠對于 OpenAI 内部是如何認知 AGI、以及如何一步步實作 AGI 這件事的了解更加深刻。

以下為本文目錄,建議結合要點進行針對性閱讀。

👇

01 AGI 是由人類創造的最具變革性的技術

02 OpenAI 的創立與設計:確定 AGI 的順利發生

03 如何建構真正的 AGI

01.

AGI 是由人類創造的最具變革性的技術

Lex Fridman:你如何看待人類的大腦?它是一個資訊處理系統、不可知的魔法或者生物化學的視角?

Greg Brockman:把人類看作是資訊處理系統是一個非常有趣的視角,這也是一個很好的視角去描述世界是如何運作的、大腦是怎麼工作的。比如目前最具變革性的創新:計算機或者網際網路,這并不隻是光纜等實體結構,而是我可以立即跟地球上任何一個人聯系,能夠立即檢索到人類圖書館裡存在的任何資訊。

Lex Fridman:是以作為人類智慧的延伸,整個社會也可以被看作是一種智能系統?

Greg Brockman:這也是一個非常有趣的視角,經濟本身也是一個能自我優化的超級機器,每家公司都有自己的意志,每個人也有自己所追求的目标。某種程度上,人類總覺得自己是地球上最聰明、最強大的生物,但有些東西比我們更重要,就是我們所組成的系統。

阿西莫夫的系列小說 The Foundation Series 中有一個心理學史(Psychohistory)的概念:如果有數萬億或數千萬億的生物,那麼我們也許可以從宏觀上預測這個生物系統會做什麼,這幾乎跟個人想要什麼無關。

此外,技術決定論(Technological determinism)也是一個很有趣的角度:沒有人能發明出别人發明不出的技術,最多改變的是變革發生的時間,對于同類産品,其中某一個最終能成功的原因可能在于其初始條件的不同。比如電話是兩個人在同一天發明的,這意味着什麼?大家都同樣在巨人的肩膀上創造,你不會真的創造出别人永遠創造不出來的東西。如果愛因斯坦沒有出生,那也會有其他人提出相對論,隻是時間線不一樣,可能還需要二十年,但這并不會改變人類注定發現這些真理的事實。

人們正在進入通用智能技術快速發展的時代,革命性的變革一定會在某個時間點發生。我認為核心是要保證 AI 在正确的方向上發展,放大它的正面效應。這也是我們在設定 OpenAI 的非營利屬性、以及又提出 OpenAI LP 結構的出發點,我們需要保證 AGI 的發生。

Lex Fridman:AGI 将如何影響世界?

Greg Brockman:回顧 AI 的發展史,基本上在過去的六七十年中,人們一直在思考:如果人類智力勞動可以自動化,會發生什麼?如果我們可以建立一個這樣的計算機系統,世界會變成什麼樣?很多科幻小說講述了各種反烏托邦(Anti-Utopia)的故事,也有越來越多像“Her”這樣的電影像我們展現了烏托邦的視角。

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

在思考 AI 可以帶給世界什麼樣的影響之前,我們可以先想想自行車、計算機對人類世界産生的影響,尤其是計算機對網際網路上的影響遠超過我們所能預測的,是以,如果能建構 AGI,它将是人類所創造的最具變革性的技術,但我們還在尋找建立 AGI 系統的方法。

6、70年來,人們普遍對 AI 願景感到興奮,但現實進展并不順利,經過兩個 AI 寒冬後,人們似乎不再談論 AGI,但我認為這并不是 AGI 不存在,而是因為人們從過去 AI 發展的曆史上吸取了足夠多的教訓,變得更加審慎。

1959 年,世界上最早的神經網絡之一感覺器(Perceptron)誕生,随即引起了大規模的關注,當時紐約時報釋出了一篇文章,認為感覺器有一天可以識别人類,喊出他們的名字,可以在不同語言之間來回翻譯。當時的人們都不相信,甚至花了 10 年時間反對感覺器發展方向,最後結果是資金枯竭、大家開始轉向其他技術方向。

感覺器(Perceptron)是弗蘭克·羅森布拉特在1957年就職于康奈爾航空實驗室(Cornell Aeronautical Laboratory)時所發明的一種人工神經網絡。它可被視為一種最簡單形式的前饋神經網絡,是一種二進制線性分類器。

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

一直到 80 年代則開始新一輪技術複興,有人說這種複興是因為反向傳播(Backpropagation)等算法等的出現,但實際上是因為我們的計算能力更加強大。從 80 年代的文章也可以看到,計算能力的民主化意味着我們可以運作更大的神經網絡,進行更多嘗試,反向傳播算法是以誕生。當時運作的神經網絡很小,可能隻有 20 個神經元,是以系統的學習效果并不好,直到 2012 年,這種在 50 年代就提出的最簡單、最自然的方法才突然成為解決問題的最佳方式。

• 反向傳播(Backpropagation):“誤差反向傳播”的簡稱,一種常見的人工神經網絡訓練方法,它在 1986 年被提出。其缺點是所需計算量較大,且會随網絡層數的加深呈平方級提高。

• 上世紀 80 年代是計算元器件發展的重要時期,英特爾系列微處理器與記憶體條技術廣泛應用,讓神經網絡逐漸步入繁榮,并出現了深度學習、卷積神經網絡、循環神經網絡等新的技術和應用。

我認為深度學習有 3 個值得關注的核心屬性:

1. 泛化(Generality),我們用少數幾個深度學習方法解決大部分問題,比如梯度下降、深度神經網絡以及一些強化學習,解決了語音識别、機器翻譯、遊戲等所有問題;

2. 能力(Competence),深度神經網絡可以解決計算機視覺 40 年研究中的任何問題,甚至有更好的效果。

3. 可擴充性(Scalability),實驗一次又一次地向我們證明:如果有一個更大的神經網絡,有更多的訓練資料,它的工作效果會更好。

這三個屬性是建立 AGI 的基礎,但并不代表隻要擴大神經網絡規模就能實作 AGI。但重點在于,這讓我們第一次感受到 AGI 是可以實作的,雖然時間點并不确定,但我認為肯定在我們有生之年内,并且會比人們預期早很多。

在這樣的遠景之下,我們在 2015 年創立了 OpenAI 。我認為 AGI 可能比人們想象中更快到來,我們需要盡最大努力確定一切順利進行,是以我們花了幾年時間試圖弄清楚我們需要怎麼做。

02.

OpenAI 的創立與設計:確定 AGI 順利發生

Lex Fridman:OpenAI 是如何成立的?

Greg Brockman:通常情況下,一家公司的發展路徑是:往往先需要聯合創始人、建構并推出了自己的産品,基于産品積累到一些使用者、得到相應的市場回報,如果發展順利的話也可以通過融資來雇傭更多的人來擴大公司規模。在這個過程中,幾乎每家創業公司都需要面對大公司帶來的潛在威脅,大公司注意到你的存在并試圖殺死你。

但 OpenAI 完全把這條路反過來了,這和 OpenAI 在起步時的現實情況有關。

第一個問題是 OpenAI 起步得太晚。當 2015 年 OpenAI 創立的時候,AI 已經從純粹的學術研究轉變為商業領域所期待的某種具體産品或工具,和業界結合得很深,是以即便有很多優秀的學者都想建立自己的實驗室,但他們作為個人所積累的資源不論到達怎樣的高度都很難跟大公司相媲美,OpenAI 作為一個初創團隊更要考慮這樣的問題。

此外,我們也在擔心一個現實問題,OpenAI 想要建立的東西真的能落地嗎?這需要一個臨界品質(critical mass),而不隻是由我和我的聯創們合作推出一個産品即可,需要至少 5-10 人團隊,這可能不容易,但值得嘗試。

臨界品質(Critical Mass):核實體學術語,剛好可以産生連鎖反應的組合,稱為已達“臨界點”。

Lex Fridman:如何看待在 AGI 的發展中,不同公司之間的競争以及合作?

Greg Brockman:做 AGI 的開發工作,弄清楚如何部署它,讓它繼續下去,要回答一個關鍵問題。

第一個是建構第一個 AGI 的過程。拿自動駕駛作為對比,自動駕駛是一個競争非常激烈的賽道,是以該領域内的玩家在選擇自己的技術路線面對極大的壓力:如果要保證技術安全性,就意味着技術實作的周期會被拉長,導緻的直接結果就是很大可能落後于其他競争者,是以大部分參與者選擇了相對更快的。

OpenAI 的選擇是不競争,即便其他人領先,我們也不會走快速而危險的道路去試圖跨越。隻要他們想做的和我們的使命一緻,我們就承諾與他們合作,幫助他們成功。如果大家都認為 AGI 是讓每個人都受益的東西,那麼哪個公司建構它并不重要。進而形成良性的合作,實作 AGI。

Lex Fridman:如果 OpenAI 成功建立了一個 AGI 系統,你會問它的第一個問題是什麼?

Greg Brockman:如果我們真的建立了一個強大到足以影響人類未來的 AGI 系統,我會問它的第一個問題是:如何確定 AGI 誕生之後世界仍舊在正常軌道上運轉?

就像核武器誕生後,全世界面臨的最重要的問題是它會給世界帶來什麼樣的變化?如何保證核武器時代的世界和平?對于 AGI 來說,雖然它和核武器不同,但作為一個全新的變革性的技術,我們同樣也要確定它不會給既定的世界和社會秩序帶來負面影響。

不過,在關注新技術負面性的同時,人們常常也會忽略一些正面影響。既然如果我們有一個足夠強大的 AGI 系統,我們肯定也需要它為我們提供建議,詢問 AGI 并不代表必須聽從 AGI 告訴你的建議,但當 AGI 足夠強大的時候,它所輸出的資訊可以被人類作為參考。如果它像人類一樣聰明,甚至它的能力可擴充,人們肯定也希望它能閱讀并吸收人類所有的科學文獻、為絕症治療提供方案、利用新技術創造更加豐富的物質、在保護環境等重要問題上給出建議、甚至方案。

Lex Fridman:如何看待關于 AGI 可能帶來的負面效應?

Greg Brockman:這裡面涉及到兩個問題:

首先是,如何向大衆描繪一個新技術帶來的新世界。

比如,放在 1950 年我們要向别人介紹什麼是 Uber 相當困難的事情。因為我們首先需要讓對方了解什麼是網際網路、什麼是 GPS, 以及每個人都擁有一部智能手機這些基礎前提。是以要讓大衆客觀評價某個變革性技術的第一個難點是,如何讓他們想象出這些變革性的技術如何在世界上發揮作用。而 AGI 會比之前出現過的技術都更具變革性,這一定程度上加高了人們的了解門檻。

第二點則是人們天然更傾向去支援負面,因為摧毀一個新事物總是比創造容易,不僅是在實體層面,更在思想層面,大部分人可能一看到負面消息就走進了死胡同。

是以面對 AGI 的負面效用的更積極的心态或者辦法是 坦然承認 AGI 的優點和缺點,這也是 OpenAI 看待 AGI 的态度,我們根據現實來判斷風險,并基于這些判斷來建構自己的組織和系統。

為了保證 AI 能夠更多地發揮它的積極效應,在 OpenAI 的建構中,我們主要關注 3 方面:

• 第一,推進系統疊代更新的能力;

💡

在 Sam Altman 的 AGI 宣言中,Sam 也提到,短期内,采用快速學習和謹慎疊代的緊密回報循環,長期來看,過渡到一個擁有超級智能的世界。

• 第二,確定安全(AI Safety)。

OpenAI 正在研究技術機制來確定 AGI 系統符合人類價值觀;

💡

OpenAI 一直對外強調其使命是確定 AGI 造福全人類,AGI 如果被成功創造出來,可增加世界豐富度、推動全球經濟發展以及幫助發現改變可能性極限的新科學知識,來幫助提升人類。

• 第三,政策(Policy)。

確定我們有一個治理機制來回報系統可能出現的問題。技術安全可能是人們談論最多的問題,比如那些反烏托邦的 AI 電影,很多都是由于沒有良好的技術安全導緻的問題。

很多人之是以認為技術安全是個棘手的問題是因為“安全”本身很難被精确地定義和描述的問題,在人類社會的治理中,我們有很多明确的規則,例如法律,國際條約等等,但同時也有一些無形的規則。如何告訴系統哪些是安全的資訊、哪些是不安全的資訊也變得十分困難。

這也是 OpenAI 技術安全團隊的重點:讓系統能從資料中學習人類的價值觀,進而和人類的倫理道德觀念保持一緻。可以類比到一個人類個體的成長,一個嬰兒會成長成一個好人還是壞人,很大程度取決于它成長的環境以及是以接收到的資訊品質,如果看到正面的榜樣,就會接收到正面的回報。是以我認為 AGI 也是一樣,系統可以從資料中學習,以得到符合人類倫理道德的價值觀。

到目前, OpenAI 的系統已經可以學習人類自己也無法明确描述的規則了,雖然仍處于概念驗證的早期階段,但 OpenAI 到模型已經具備學習人類的偏好的能力,它能夠從資料中了解人類想要什麼。

Lex Fridman:《人類簡史》這本書中的一個觀點是人類世界并不存在客觀真理,如果沒有絕對的對與錯的标準,要如何保證模型、算法的“持續正确”?

Greg Brockman:OpenAI 的政策團隊(Policy Team)在做的工作則是讓模型更了解“什麼是對的”。GPT 的确已經強大到可以回答任何使用者想要知道的問題,但最重要的問題是,我們的使用者是誰:他們想要什麼,這又會如何影響到其他人?我們隻需要類比到現實世界就知道這件事情有多難:現實世界中不同國家、人種、文化背景的人對于世界如何運作和所崇尚的價值觀都有着不同的了解。是以對于 OpenAI 團隊,這件事不亞于一個新的社會治理議題。但一個強大的系統也會賦予人類更多權利。

這種情況正以不同的方式發生,有一些定律也正在被改變。比如摩爾定律,摩爾定律被工業界整整信奉了 50 年,但最後發現還是失效了。

💡

2018年,OpenAI 釋出了 AI and Compute ,在這一篇研究中提出自 2012 年以來,最大的 AI 訓練運作中使用的計算量呈指數級增長,2012 年到研究提出該名額增長了 300,000 多倍,翻倍時間為 3.4 個月,而摩爾定律的翻倍期為 2 年,如果按 2 年翻一番隻會産生 7 倍的增長。

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

是以我們不能抱希望于自己能夠發明出别人發明不出的東西,最多隻能改變時間線。如果你真的想有所作為,唯一能做的就是在在技術誕生之初,設定一些初始條件來確定它的順利發生。比如,在“網際網路”剛被發明的時候也有很多競争對手發明出類似于網際網路的産品,但網際網路之是以能成功,離不開它最初設定的初始條件:網際網路允許人們成為任何人,以非常開放的心态聯系溝通。我相信下一個 40 年也會繼續這樣發展,或許過程中也會轉向,但這些初設條件對網際網路的成功非常重要。

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

03.

如何建構真正的 AGI

Lex Fridman:OpenAI 最近釋出了 GPT-2 ,但沒有釋出完整的模型,官方說明是因為擔心可能會産生負面影響,這也引發了社會層面的讨論。這裡的負面影響和積極影響分别是什麼?

Greg Brockman:我們現在正處于擴大模型的道路上,并且随着模型規模的擴大而實作更好的性能。GPT-2 隻是 2018 年 6 月 GPT-1 的放大版。我們未來要擴大它到上千倍,不知道最終會得到什麼。可能 GPT-2 不具有負面應用,但 GPT-20 的能力會是實質性的。

GPT-2 潛在的負面影響在于它可能會導緻産生假新聞或濫用内容。比如一定會有人嘗試在 GPT-2 基礎上使用自己的 Facebook 消息曆史記錄,來生成更多 Facebook 消息,進一步,這種行為就會帶來生成制作虛假的社會性、政治性議題政治家内容的可能性。

而正面影響是,GPT-2 的确帶來了有很多很棒的應用程式,開發者可以使用 GPT-2 來衍生出很多很酷的想法。很多人寫信給我們,希望能把它用于各種不同的創意應用。

GPT-2 推出後帶來的應用場景包括:

1. 文本生成:GPT-2 Poetry;GPT-2 Dungeons and Dragons character bios;

2. 聊天機器人:Thomas Wolf 團隊在 PERSONA-CHAT 資料集上微調了 GPT-2,建立了帶有角色個性的聊天機器人;

3. 機器翻譯;

4. 文字總結:在 CNN 和《每日郵報》的資料集上進行了測試。

是以如果要真正考慮安全性。對于 GPT-2,是否公開釋出各有利弊,但未來模型的到來可能比預期要快,擴大模型并不需要很長時間,未來的模型是絕對不能公開釋出的内容。我們把不公開釋出 GPT-2 視為一個測試,實作社會心智的過渡。

GPT-20 是 Greg 在當時對模型能力能夠達到質變節點的預測,從後視鏡視角來看,Greg 對于模型參數量擴大後的能力提升預測還是相對保守,因為在 3 年後 GPT-3 就已經實作了這樣的目标。

Lex Fridman:你認為 GPT-20 時候的世界是什麼樣?就像在 50 年代,人們試圖描述網際網路或智能手機。我們将成功設計識别機器人與人類的系統,還是人類不得不接受并習慣充斥着假新聞的世界?

Greg Brockman:有一個十分流行 meme 可以用來回答這個問題:一隻機器人實體手臂正在點選“我不是機器人”的身份驗證按鈕。我認為人類最終無法區分機器人和人類。不可否認的是,人們在未來所擷取的資訊中有一部分一定是通過自動生成的,因為 AI 足夠強大,以至于人們無法分辨出人類和人工智能分别産出的資訊的之間的差異,甚至最有說服力的論點反而是由 AI 提出的。

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

Lex Fridman:你認為語言模型最終可以發展到什麼程度?類似于電影 Her 裡面。人類與 AI 通過自然語言的多輪對話可以通過這種無監督模型來實作嗎?

Greg Brockman:大語言模型應該能夠真正了解微積分,并解決新的微積分問題。我們需要的不僅僅是語言模型,而是解釋和推理的方法。

語言模組化實際上已經走得比許多人預期的要遠。GPT-2 還沒有來自于自身的動态經驗,隻是一些可供學習的靜态資料,是以它對實體世界的了解程度很淺。如果我們能夠讓它真實地了解實體世界就已經相當常令人興奮。

但如果僅僅隻是擴大 GPT-2,也并不足夠讓模型具備推理能力。人類是通過思考産生新的想法、獲得更好答案,并且思考的過程一定會花費大量計算能力,這種模式沒有被編碼在 GPT 中。分布式泛化(distribution generalization)也很有趣。對于人類來說,即便有些時候沒有經曆過某件事,但也會對這件事有一個基本的思考與了解,這與推理有關。

為了真正建構 AGI,一方面需要在計算規模上盡可能地推進,另一方面還需要在人類自身思考和認知的實質性推進。

我們應該找到一個可擴充的方式:投入更多的計算、更多的資料,讓它變得更好。我們之是以對深度學習、建構 AGI 的潛力感到興奮,部分原因是因為我們研究出了最成功的 AI 系統,并且意識到如果擴大這些系統的規模,它們會更好地工作。可擴充性給了我們建構變革性系統的希望。

Lex Fridman:建立 AGI 或一些新的模型的過程中,如何在它們還隻是原型階段的時候就發現它們的潛在價值?如何能夠在沒有規模化的情況下堅持這些想法?

Greg Brockman:我們自己就是很好的案例。OpenAI 在 6 月 28 日釋出了 GPT,後來我們将其放大到 GPT-2。在小範圍内,GPT 它創造了一些記錄,它不像 GPT-2 那樣令人驚豔,但它很有希望。

但是有時規模化後與我們在小範圍内看到的内容有質的不同。最初發明者會說,我不認為它能做到這一點,這就是在 Dota 看到的。Dota 基本上隻是大規模地運作 PPO,長期來看,這些行為在我們認為不可能的時間尺度上真正發揮作用。

PPO:Proximal Policy Optimizaion,近端政策優化算法。PPO 提出了新的目标函數,可以在多個訓練步驟實作小批量的更新,解決了 Policy Gradient 算法中步長難以确定的問題。

Lex Fridman:随着 GPT 規模的不斷擴大,可能人們會看到更加令人驚訝的結果,很難看到一個想法在規模化後會走多遠。

Greg Brockman:Dota 和 PPO 是一個非常具體的例子。關于 Dota,有一件事非常令人激動,人們并沒有真正注意到,那就是分布中泛化的法令(the decree of generalization out of distribution),它被訓練來對抗其他 AI 玩家。

Lex Fridman:未來幾年深度學習将走向何方?強化學習的方向在哪?對于 OpenAI ,2019 年你會更關注哪些方面?

Greg Brockman:規模化的開展更多創新的項目。

OpenAI 内部有一個項目的生命周期。先從幾個人開始,基于一個小的 idea 展開工作,語言模型就是一個好的例子。一旦在過程中得到一些有意思的發現和回報,我們就擴大規模,讓更多的人參與其中,同時投入更多的計算資源。最終狀态會像 Dota ,由 10 或 15 人組成的大型團隊,以非常大的規模運作事情。将工程和機器學習科學結合在,形成一個系統展開工作、并獲得實質性的結果。整個生命周期,端到端,需要 2 年左右的時間才能完成。

OpenAI 内部也有更長的生命周期項目。我們正在組建一個推理團隊去解決神經網絡推理這件事,這會是一個長期、但一定有超預期回報的項目。

Lex Fridman:講講 Dota 的訓練過程。

Greg Brockman:Dota 項目是我們邁向現實世界的重要一步,相對于象棋、圍棋等其他遊戲,Dota 作為一個複雜遊戲連續性更強,在 45 分鐘的遊戲中,玩家可以進行不同的動作和政策組合。Dota 的所有寫死機器人都很糟糕,因為它太複雜了。是以這是一個推動強化學習最新技術的好方向。

寫死(hard coding):将資料直接嵌入到程式或其他可執行對象的源代碼中的軟體開發實踐,而不是從外部獲得資料或在運作時生成資料。

我們在 2017 年在 Dota 的 1V1 對戰中成功擊敗了世界冠軍。學習技能曲線是一個指數函數,我們一直在擴大規模,修複錯誤,進而獲得了穩定的指數級進展。

Lex Fridman:Dota 是一個非常受歡迎的遊戲,在全世界有很多很資深的人類玩家,是以在 OpenAI 和人類的 Dota 1V1 對戰中,要獲得成功的基準是非常高的,最初是怎麼訓練這些 AI 的?

Greg Brockman:我們使用的方法是自訓練。我們設定了兩個沒有任何經驗的 Dota AI 玩家沒有任何經驗,他們互相争鬥;他們不斷發現新的對戰技巧、繼續鬥争。之後我們從 1V1 擴大到 5V5,繼續學習團隊行動中需要做的協調,在 5V5 版本遊戲中達到專業水準難度指數級上升。

這件事與昆蟲的訓練方式有很多共同點。但昆蟲在這種環境中生活了很長時間,并且有很多經驗。站在人類的角度來看,昆蟲并不聰明,但昆蟲其實能夠很好地駕馭它所處的環境,甚至處理周圍環境中從未見過的意外事情,我們在 AI Dota 玩家上看到了同樣的事情。在這個遊戲中,他們能夠與人類對戰,這在其進化環境中從未存在過。

人類與 AI 的遊戲風格完全不同,但 AI 依然能夠很好地處理這些情況。這沒有從較小規模的 PPO 中出現。之後,我們運作 10 萬個 CPU 核心、數百個 GPU,這個規模是巨大的,我們開始從算法中看到非常不同的行為。

Lex Fridman:Dota 在 1V1 比賽中打敗了世界冠軍,但目前還沒有赢得 5V5 的多人比賽。今年接下來的幾個月會有什麼變化?

Greg Brockman:OpenAI 的 Dota 團隊一直在與比我們模型更好的玩家進行比賽,雖然我們最終輸掉了兩場比賽,但這也确實表明我們已經處于專業水準。我們内部很相信它在未來會取得進一步的勝利。

但其實赢或輸與我們思考即将發生的事情的方式無關。因為我們的目标并不是在 Dota 比賽中擊敗人類,而是推動強化學習達到最先進水準,是以某種程度上我們已經做到了這一點了。

OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20
OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20
OpenAI創始人的AGI預言:AI Safety、Scaling laws與GPT-20

Weights & Biases:大模型軍備競賽的受益者,AI領域的Datadog

Midjourney:AIGC現象級應用,一年實作1000萬使用者和1億美元營收

Greylock:離OpenAI、DeepMind最近的VC,AI幕後玩家走向台前

拾象AI投資圖譜:大浪已至,展望Infra百億美金公司機遇

ChatGPT,受驚駭的巨頭們與焦慮中的軍備競賽

繼續閱讀