天天看點

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

[] https://www.leiphone.com/news/201711/XvppAZ7gHf6pkrJ5.html

本文為近日召開的CoRL 2017大會上,MIT TR 35得主、UC Berkeley助理教授 Anca Dragan 所做的演講整理,雷鋒網(公衆号:雷鋒網)作為受邀媒體參加了CoRL大會,并與Anca Dragan進行了交流。在雷鋒網将于1月舉辦的GAIR矽谷智能駕駛峰會上,Anca Dragan也将出席并發表演講。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

Anca Dragan現任UC Berkeley的電子工程與計算機科學助理教授及InterACT實驗室主任。為了令機器人更好地協同人類工作,Anca Dragan帶領InterACT實驗室開始專注于人機互動算法的研究,試圖将複雜或模糊的人類行為轉化為機器人能了解的簡易數學模型,通過建立博弈理論和動力系統理論,聚焦于發現或學習人類行為模型,并計算連續狀态和行動空間。

MIT科技評論給她評的獎項為“遠見者”,稱“她緻力于確定機器人與人類可以和諧地共同生活”。在獲獎報道中,Anca Dragan表示:

當人們試圖與機器人共事時,許多沖突都來自于雙方對彼此的不了解,如果機器人能夠了解它可能對人類情緒造成的影響,就有望解決這一問題。

Anca Dragan認為,機器人與人工智能的正确觀點應該是機器人試圖優化人的目标函數。機器人不應該将任何客觀的功能視為理所當然,而應該與人類一起去發現他們真正想要的是什麼。該研究在短期之内最重要的應用莫過于幫助自動駕駛汽車與傳統汽車預判對方可能的行為,而在演講中,Anca Dragan也多次提到了這一點。以下即為雷鋒網整理的演講内容摘要:

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

Anca Dragan的PPT題目為《人類進入機器人方程》。在傳統的機器人路徑規劃問題中,機器人通常将人類視為和其他不能移動的物體一樣的避障目标,而Anca希望将人類作為機器人決策的一個“變量”實作和人類的最優互動。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

最簡單的狀态,隻有機器人和互動的物體,則機器人的效用函數為UR,該效用函數包含的變量包括初始狀态x0以及運動軌迹uR。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

但現實中,機器人需要和三類不同的人打交道:在運作環境中的其他人、其使用者,以及其設計者。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

出于安全的考慮,以往通常将人視為機器人行動和路線規劃中需要避讓的“障礙物”;

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

但在人類互動當中往往存在某種博弈行為,如這個超車變道的例子,黑色小車意圖超車,但銀色卡車寸步不讓。如果我們與他人的互動都像這個司機一樣,則會造成許多沖突,但無人駕駛車不會像小汽車司機這樣做,他們會感覺到這裡可能沒有足夠的超車空間,會選擇減速在卡車後變道;

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

如果我們将人視為需要規避的障礙物進行模組化,那意味着我們将人類視為這個例子中不會改變主意的卡車司機一樣進行模組化。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

另一個Google Car無法順利通過四面都有停車标志的十字路口的例子。在這個例子中,傳感器會一直探測到有人類司機并進行避讓,而人類司機可以通過一寸一寸向前挪動讓Google無法行動。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

漫畫:“你先走還是我先走?”在圖中,無人車讓人類先走,但行人并不打算走而是揮舞手臂,則會讓無人車困惑。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

機器人與人類的互動。此時機器人的效用函數UR包含三個變量:初始狀态x0、機器人運動軌迹uR以及人類運動軌迹uH,此時人類的效用函數UH也包含三個變量:初始狀态x0、人類運動軌迹uH以及覺察到有機器人後的隐形影響因子θH;

我們現在在做的研究:人并不是障礙,而是将其視為需要通過自己效用函數進行優化的智能體,但我們并不知道其效用函數,參數是隐藏的;機器通過人的動作估計隐藏狀态,估計其下一步行為,如果機器人對人的下一步動作有估計,那麼機器人會将其加入到自己的效用函數中:如果這件事情發生,我應該怎麼做才是最好的選擇。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

Anca 6年前做的研究,與人類内部狀态的互相作用,機器預測我要做什麼,并幫我更好實作目标。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

以及最近的Paper。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

當人類也考慮機器人的行為來調整自己的行為時,其效用函數UH變為四個變量:初始狀态x0、人類運動軌迹uH、機器人運動軌迹UR及覺察到有機器人後的隐形影響因子θH。有不少證據表明人們實際上并不一定去在博弈中實作均衡,因為人類是通過計算達到平衡的。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

我們如何說明機器人對人類行為的影響?

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

例如,在這個軌道車的例子中,你的效用函數和你如何動操作杆有關;

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

再看一個無人車與人類司機互動的例子。上圖中的橙色汽車是無人駕駛車,UR是無人駕駛車軌迹,UH是人類駕駛軌迹,如果我們考慮的是在特定的UR下,UH應該如何達到最優,這樣人類可以更好地響應機器人的行為。

在這個例子中,這是一個保證效率和安全的博弈。人類的參數是隐藏的,我們通過反向優化控制來猜測這些資料,機器人收集這些展示人們将如何與機器人互動的資料,設定一個最大似然觀察,然後機器人去解決這個嵌套優化問題,即當人不可避免地受到我所做的事情的影響時,我該怎麼做才能最大限度地将我的效用最大化?最終會達到人和機器人的和諧協作。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

接下來Anca展示了一些簡化後的例子。如果将人類車輛當做一個需要避障的目标并推斷其行為,無人車通常在人類車輛後變道。在少數情況下,人類車輛之前有充足的空間的時候,無人車會超車變道,因為在這個嵌套優化中,機器人知道,如果它按這一方式超車變道,那麼人的反應就是放慢速度,讓無人車進入。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

在這一模式中,機器人不再處于被動狀态,而是更好地和人進行互動。Anca稱她最喜歡的一個例子是,仍然是四面停止标志的十字路口,當處于僵持、沒有乘客的無人車(橙色)需要表示“你先走”的時候,無人車會稍稍後退,在這個路口中,人類司機同樣在進行效率和安全的博弈,而當無人車後退的時候,車輛相撞的幾率變小,此時人類司機就會通過路口,達到人類車輛效用函數的最大化。這是一個無人車影響人類效用函數的例子,同時也是很令人驚異的發現,因為人類司機從不會通過後退表示讓對方先走。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

同樣在這個漫畫的例子中,無人車也可以通過稍稍後退讓行人先走打破僵局。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

三種模型下,真實使用者不同反應的影響。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

這一模型仍然存在某些局限性,如效用局限于已知的Feature的線性組合,假設感覺問題已經得到解決,對車輛運作進行了簡化,等等。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

而且我們不能用一些線下訓練的模型來用來套到實際的駕駛中,萬一遇到之前那個不肯避讓的二愣子卡車司機就麻煩了。是以需要對每個司機的行為進行具體的估計。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

通過對人類司機駕駛軌迹的觀察,可以推斷出司機的駕駛風格:比較激進或者比較保守,并采取正确的政策,如判斷對方是一個保守型的司機的時候,在其前面變道超車對方通常會避讓。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

像這種情況的激進型司機,無人車隻能放棄變道。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

而在十字路口的例子中,無人車需要判斷這個司機是否注意其他車輛的動作。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

在優化之外的緊急場景的系統協調政策又是怎樣的呢?

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

當僅和最終使用者互動的時候,無需考慮兩個效用函數,隻需要和人類站一邊考慮UH最大化即可。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

上述讨論的很多都是機器人如何估計人類隐藏參數的研究,另一種方式則是人如何思考與機器人互動中的參數的推斷,這方面的研究一直在進行,而且需要機器人有更多的表現力。對于不同人,機器人同樣的動作也會産生不同的後果,即便人類無法正确推斷機器人行為的時候,至少要讓他們知道發生了什麼事,你想做的是什麼,為什麼互動沒有取得更好的結果等等。機器人需要注意這個更微妙的影響,因為它決定了人們是否了解機器人正在做什麼,是否有信心在執行任務等。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

然而我們(設計者)在為機器人指定效用函數的時候做的不怎麼樣,機器人的獎勵值通常具有不确定性,這往往會帶來出人意料的結果。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

例如在OpenAI的一篇論文中,白色小船的目标是在遊戲中獲得盡可能多的分,但在這裡白色小船卻偏離了賽道打起圈子(因為能不斷吃到寶箱)。

另一個例子,如果設定一個吸塵機器人的獎勵函數是吸盡量多的灰塵,那麼機器人會不會在吸完灰塵後把手機起來的灰塵倒出來,然後繼續吸塵以達到最大的獎勵值?

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

又或者,像迪士尼卡通片米奇用魔法教一把掃把幫其挑水,最後這把掃把不斷挑水(獲得最大獎勵值)把整個屋子給淹了一樣;

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

讓我們來分析一下這是如何産生的。例如小船遊戲的例子,當設定得分為獎勵值,當機器發現有兩個政策:1)排名第一但僅獲得20分;2)排名靠後但能獲得50分,機器人選擇的是後者。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

這樣,設計者需要改變獎勵值(找到真正的獎勵值)以使得機器人按預定目标進行決策,或者讓機器人能夠推測到設計者的真正意圖。但二者均有不足之處。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

另一個包含草地、灰塵、熔岩和最終目标的導航場景的例子。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

假設訓練時的狀态,獎勵函數是盡可能少走草地得分越高的話,結果會如上圖所示(此時沒有出現熔岩)。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

政策1:設計師有基于名額的訓示器,并建立從原始觀察值到名額的分類器,此時将訓練的模型放到有岩漿的例子中時,機器人往往會越過岩漿到達終點(并非想要的結果)

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

政策2:而如果設定反向激勵,機器人會對訓練時未出現的元素敬而遠之,機器人不知道岩漿是好雞還是懷,也可能如上圖所示錯過“金礦”。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?
Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

通過以上例子,說明需要在訓練環境的背景下對特定的獎勵進行觀察找到真正的獎勵,而在執行中人類的指導則是找到真正獎勵的關鍵(如迪士尼卡通片中,米奇讓掃把停止打水)。

Anca Dragan CoRL 演講解讀:機器人與人類如何互相影響及更好協作?

這樣,機器人可以從從豐富的指導模式中學習。

簡單來說,如果機器人能夠了解它可能對人類情緒造成的影響,就可以更好地進行決策,并在更廣泛的領域于人類更有效進行協作,給我們生活帶來更多便利與驚喜。

繼續閱讀