天天看點

不斷變化的遊樂場教會人工智能如何處理多項任務

虛拟遊戲世界提供了源源不斷的開放式挑戰

推動人工智能走向通用智能

不斷變化的遊樂場教會人工智能如何處理多項任務

DeepMind開發了一個巨大的糖果色虛拟遊樂場,通過無休止地改變人工智能設定的任務來教授人工智能的一般技能。人工智能不隻是培養解決特定任務所需的技能,而是學會實驗和探索,學習技能,然後用這些技能成功完成他們從未見過的任務。這是邁向一般智力的一小步。

這是怎麼一回事?XLand是一個類似于3D世界的視訊遊戲,AI玩家可以通過顔色感覺。操場由一個中央人工智能管理,通過改變環境、遊戲規則和玩家數量,為玩家設定數十億個不同的任務。球員和操場經理都使用強化學習,通過反複試驗來提高。

在訓練期間,球員們首先要面對簡單的單人遊戲,比如尋找一個紫色的立方體,或者把一個黃色的球放在紅色的地闆上。他們會更新到更複雜的多人遊戲,如捉迷藏或抓旗遊戲,在這些遊戲中,各隊争先恐後地找到并搶奪對手的旗幟。操場經理沒有明确的目标,但目标是随着時間的推移提高球員的總體能力。

為什麼這麼酷?像DeepMind的AlphaZero這樣的人工智能在國際象棋和圍棋方面擊敗了世界上最好的人類玩家。但他們一次隻能學一個遊戲。正如DeepMind聯合創始人Shane Legg在去年我與他交談時所說的那樣,每次你想切換遊戲時,就好像不得不用你的棋盤腦來替換你的圍棋腦。

不斷變化的遊樂場教會人工智能如何處理多項任務

研究人員現在正試圖建立一種可以同時學習多個任務的人工智能,這意味着要教他們一些更容易适應的通用技能。

這一方向的一個令人興奮的趨勢是開放式學習,在這種學習中,認可機構在許多不同的任務上接受教育訓練,而沒有特定的目标。在許多方面,人類和其他動物似乎就是通過無目的的遊戲來學習的。但這需要大量的資料。XLand以無休止的挑戰的形式自動生成這些資料。它類似于Poeter,一個人工智能訓練道場,兩條腿的機器人學習在2D場景中導航障礙物。然而,XLand的世界更加複雜和詳細。

XLand也是人工智能學會自我創造的一個例子,傑夫·克倫(Jeff Clune)幫助開發了POET,并在OpenAI上司了一個研究此主題的團隊,他稱之為人工智能生成算法(AI GAs)。”這項工作推動了人工智能氣體的前沿,”克倫說很高興見到你。”

他們學到了什麼?一些DeepMind的XLandAI在4000個不同的世界裡玩了70萬個不同的遊戲,總共遇到了340萬個不同的任務。與大多數現有強化學習AI在每種情況下都要做得最好的事情不同,玩家們學會了在周圍移動物體以觀察發生了什麼,或者使用一個物體作為工具到達另一個物體,或者躲在後面,直到他們完成特定任務。

在這些視訊中,你可以看到人工智能在四處抛灑物體,直到它們偶然發現有用的東西:例如,一塊大瓷磚變成了平台的斜坡。研究人員說,很難确定所有這些結果是故意的還是愉快的事故。但它們一直在發生。

學會實驗的人工智能在大多數任務中都有優勢,即使是他們以前從未見過的任務。研究人員發現,在對一項複雜的新任務進行30分鐘的訓練後,XLA和AIs很快就适應了它。但是,沒有花時間學習的人工智能根本無法學習這些任務。