天天看點

斯隆獎得主方飛:當深度學習和博弈論相結合,能解決哪些社會問題?

5.10知識分子The Intellectual

斯隆獎得主方飛:當深度學習和博弈論相結合,能解決哪些社會問題?

算法與社會福祉的沖突是天然存在的嗎?| 圖源:pixabay.com

導 讀

今日,人工智能算法已經滲透到社會生活的方方面面:購物軟體依靠算法判斷消費者的消費習慣,推送特定商品;打車軟體通過算法派單和定價,調配司機運力;社交軟體利用算法分析關鍵詞、推送廣告和内容。在這個過程中,盡可能為商業企業産生收益的算法,給社會生活帶來便利的同時,也因隐私、歧視等諸多問題飽受诟病。

但是,算法與社會福祉的沖突是天然存在的嗎?

卡耐基梅隆大學(CMU)助理教授方飛認為,找對研究方向,算法也能夠幫助解決一些社會性的問題。她的工作,就是将博弈論、人工智能與現實問題相結合,解決現實中的複雜問題,比如保護輪渡免受恐怖分子襲擊,防止盜獵者在保護區内傷害動物,将即将過期的食物分給需要的人等等。

方飛的工作紮實、穩重,在領域内赢得了不少贊譽。2020年,她入選IEEE“AI十大潛力人物”;2021年獲得IJCAI(國際人工智能聯合會議)計算機與思想獎;2022年2月,她獲得斯隆研究獎,一個獎勵職業生涯早期傑出年輕學者的獎項。

方飛現在CMU計算機科學學院軟體研究所任職。她認為,一些情況下,企業通過算法在最大化社會總收益時也能得到較高的利潤。而相比于人工智能的其他強應用性領域,AI向善還是一片“藍海”。她希望有更多研究者能加入這個領域,為提升整體社會福利作出貢獻。

她說,進入這個領域最重要的,是要有發現問題的眼睛。

以下是《知識分子》和方飛的對話,行文有删減。

撰文 | 王一葦

責編 | 陳曉雪

●  ●  ●

斯隆獎得主方飛:當深度學習和博弈論相結合,能解決哪些社會問題?

方飛,卡耐基梅隆大學(CMU)助理教授,斯隆研究獎獲得者當人工智能與博弈論相結合

知識分子:博弈論是1944年的時候馮·諾依曼和奧斯卡·摩根斯特恩提出的,跟人工智能結合的博弈論研究是什麼時候、怎麼發展起來的?

方飛:一開始,博弈論主要在經濟領域裡面(發展),諾貝爾經濟學獎得主經常是研究博弈論的。由于計算機的發展,大家很感興趣在博弈論裡什麼樣的問題是可計算的,或是能有效地計算出結果的,就會去研究不同的激勵形式和不同的均衡,看什麼樣的均衡概念在什麼樣的博弈中是有效的算法,什麼樣的問題是NP hard——比較難解的。有了預測,就開始處理計算上的挑戰。

安全博弈相關的進展是在2006年,Tuomas Sandholm和Vincent Conitzer兩個大牛在Economics and Computation(經濟學與計算)會議上發了一篇論文 [1],說在斯坦伯格均衡當中,在比較簡單的問題上,是可以有多項式時間的算法可解的,但是當這個問題延伸到有一方博弈參與者的支付函數或在博弈中的收益有多種可能、類型未知時,這個問題就不可解。

在這之後,我的導師Milind Tambe是最先把博弈論應用到安全領域的。他研究的是在一個具體的問題裡可不可以應用斯坦伯格博弈(Stackelberg Game,指存在兩方的完全資訊動态博弈,雙方都是根據對方可能的政策來選擇自己的政策)去分析。

比如,我們想保護洛杉矶的機場。在保護機場的問題裡,有保護者也有攻擊者。機場的巡護人員,也就是防禦的這一方,每天都要進行巡邏。那麼作為攻擊者,可能會花很長的時間去觀察巡邏人員的巡邏有什麼樣的規律,是不是每個周一都在一号航站樓巡邏,每個周二都在二号航站樓巡邏之類的,然後根據觀察到的這些規律去找巡邏方案裡相對的弱點,避免被巡邏人員抓到。他們會有各種各樣的攻擊,比如說有人會把手槍、步槍等各種各樣的武器帶進機場。

巡邏人員一方面會在進入機場的多個路口設檢查站,另一方面在各個航站樓裡面用警犬巡邏,但是因為檢查站的數量以及警犬的數量都不夠多,是以需要去決定每天去什麼樣的地方做什麼。

因為有這樣的不對稱關系,他們把這個問題模組化成一個斯坦伯格博弈:巡邏者這一方是上司者,先去選擇一個巡邏政策;而攻擊者那方是跟随者,觀察上司者的政策以後,再去回應,選擇更好的攻擊方式回應現有的巡邏方案。

在這個基礎上,他們又開發了一系列的模型和算法來去研究這個領域,慢慢成為了最開始的一波安全博弈項目。

我加入Tambe的研究組以後,開始應用更多的機器學習手段。我們開始研究移動的目标,比如輪渡是不是也可以用類似的模型模組化,以及能不能找到快速的算法來去求解最好的巡邏方式。

美國的海防在各個渡口都有巡邏。在紐約,巡邏人員其中一部分任務就是要保護曼哈頓島到史丹頓島的輪渡。這個問題裡,輪渡就是移動的目标,而巡邏人員也駕着小船在不停移動,我們想要做的事情就是用博弈論模組化,并且去建構一個算法,找到最佳的路線選擇。

最開始的模型主要就是兩方的斯坦伯格博弈,後來也有研究多方的。前兩年的一些保護動物相關的工作裡,保護區的人跟我們說,有時候會有居民告訴他們,聽說盜獵者去哪裡盜獵了或者是将要去哪裡盜獵。當時現有的模型都沒有辦法去考慮這樣的因素,我們就建立新的模型來考慮多于兩個博弈者的問題。

知識分子:聽上去這個領域實用性非常強。那麼博弈論跟AI結合,想要完成的科學目标是什麼?

方飛:在我看來,它的科學目标就是希望能夠去找到更有效的、更快速的算法來解決更複雜或更實際的博弈。博弈論是理論架構,而AI或深度學習是工具,在這個架構下去求解數學問題。整個計算博弈論領域,大家都在做的事情就是希望有更好更快的算法,能夠去求解更複雜的博弈。

很多時候,計算和博弈論結合無法找到快速的解。

一種情況是這個博弈太複雜了,沒有辦法用數學規劃求解,因為如果用資料規劃去求解的話,需要幾百萬的電量、幾百萬的限制條件,如果真的在機器上算,光去求解,這個機器的記憶體就爆掉了。這樣的情況下,我們可以通過深度學習的方式,找到這個大問題裡面一個較優的解,或者說比較靠近均衡的政策。

第二種情況,有時候在博弈問題裡需要考慮人的行為。最傳統的博弈論假設所有的人都是理性人,但後來提出,并不是所有人都是完全理性的,這時候就要去了解人的行為模式。機器學習可以幫助我們,通過人以往的行為資料來給人的行為模組化,在這樣的模型下去再去找博弈中其他博弈方的解。

第三種情況是逆向博弈論(inversive game theory)。一般的博弈論的問題是說,我告訴你博弈是這幾個人在進行,在不同的情況下,每個人的收益會是多少,然後問你對于這樣一個博弈問題,均衡政策應該是什麼。逆向博弈論就是反過來,我能夠觀察到大家在博弈中采取什麼樣的行動,問能不能去找到每個人的收益函數是什麼。

在這樣一個問題裡,有很多觀察資料來描述每個人的行為和他采取的行動,我們要去從行動裡逆推收益函數,這個時候機器學習也可以幫助我們。

我提的這三個是我自己做過的,都是把機器學習作為工具來解決博弈論裡面的問題。還有其他結合博弈論和深度學習的方式。

反過來,也可以用博弈論去解決機器學習裡面的很多問題。一個例子是卡耐基梅隆大學招學生,最初一輪篩選中,每個人把申請資料交過來,大家來看。事實上除了人做判斷以外,學校有一個算法來判斷這個學生是不是值得考慮的,防止有一些被人漏掉。這兩條線是完全獨立地在做判斷,就是說隻要人或者機器認為這個學生應該值得被考慮,那麼就會進入下一輪。

可以想象,在這樣的情況下,如果學生知道你是用什麼樣的方式來進行篩選,他們可能會去想辦法改變自己的一些行為或者分數,根據算法去調整自己的行為。在這樣的情況下,我們其實可以用博弈論去分析(如何解決這個問題)。

知識分子:博弈論和機器學習的結合可以解決哪些類型的社會問題?你一般是怎麼去找到這些現實社會中的問題和痛點的?

方飛:我們幫美國海防設計巡邏路線,幫動物保護組織設計護林員的巡護路線。前者是安全性問題,後者與環境的可持續發展相關。還有移動性(mobility)相關的問題,比如交通運輸等,我們也在研究中。

有一部分是各種各樣因素的巧合疊加,另一部分其實是因為我們之前做過的一些東西,延展到了類似的或是相關的問題。

比如說我博一的時候做了保護輪渡的工作。我們講演、發了paper之後,去跟不同的人交談,有人就提到,你們這個問題聽起來跟動物保護護林員的巡邏問題挺類似的,有沒有考慮過把你們的算法應用到那個問題上。這給了我們動力,去跟相關的專家去交談,了解實際的問題。

我來CMU之後,我們還做一個新的系列工作,是食物救助。我一開始不知道匹茲堡有這樣一個非營利組織,是有一次在我們學校會議室裡面正好遇到了這個組織的CEO,互發了名片。我去查了一下他們的組織在幹什麼,發現特别有意思。後來我自己也去給他們做志願者,又去跟他們交流,跟他們說我們做了很多AI相關的工作,希望看看我們的技術有什麼能夠應用到這個問題裡面,能夠幫助你們平台發展得更好。

從這樣的讨論開始,慢慢的就有了越來越多真正的工作,我們現在在這個方向上已經發了三四篇paper,(算法)也在他們的系統裡面已經用上了,這也是我特别高興的。

食物救助分兩個部分,第一個部分是比對donor和receiver,就是食物捐助者和食物接受者;第二個部分是比對志願者去運送食物。比如我當時去做志願者,CMU的一個咖啡廳有剩下的蛋糕,他們想捐給附近的單身母親救助站,就在手機APP上說我們需要志願者來把食物從CMU的咖啡廳送到救助站去,我一看很高興,就在我樓上,就趕緊接了這個單,把食物送過去了。

我們主要研究的是平台和志願者之間怎麼比對的問題,或者說怎麼能夠幫助平台更好的找到能夠來運送食物的志願者,怎樣讓志願者在這個過程中獲得更好的體驗。在這個問題裡,我們的目标就是能夠不要發太多的的通知,因為如果每來一個單就給所有的志願者發通知的話(會很打擾)。我們希望不要發太多的通知,但是又能夠提升接單率和縮短時間。

新的推薦機制上線以後,總的接單率上升了,平均接單時間減少了。這個問題其實跟打車軟體有一點像,也是有一個派單的過程,但是很不一樣的是,這是一個純志願者的非營利性平台,給打車軟體做的定價政策是完全不能用的。

找到真問題

知識分子:尋找解決方案的過程中,你覺得最困難的事情是什麼?

方飛:是找問題。找能夠利用人工智能、真的産生價值的問題。

像食物救助這個問題,我一開始做完志願者之後,覺得整個系統裡面有太多可以改進的點了。我當時寫了一個很長的郵件給他們CEO,說根據我的經驗,一二三四這幾個方面都可以改進,然後我們的人工智能可以在每個方面做點什麼。我提的建議是,你們給志願者的指導資訊太模糊了,需要通過一些智能的方式提供更清楚的指導,比如應該去找誰跟誰對接,在什麼地方跟别人見面之類的,另外可以讓一個志願者送多個單。

後來我去跑到他們辦公室裡面去跟他們聊,他們就說你提的問題都很有意思,但不是我們真正關心的點。對于他們的組織來說,需要看的是更大的方面,他們真正的痛點是,怎麼能夠讓更多的志願者來參與,讓食物不被浪費,能夠及時地送到該送的人手裡面。

是以要不斷地跟他們讨論,我的學生也去他們那邊實習了兩天,幫他們去做派單的工作,體驗一下從内部的角度來看派單的過程是什麼樣子。在不斷的讨論中,最後才慢慢找到了一個對他們來說是非常關心的,對于我們來說是人工智能真的可以發揮作用的問題。在我看來這可能是最花時間的一個步驟。

另一個我覺得特别有挑戰的就是,怎麼能夠讓他們真的去用你做的這個東西。可能他把資料給你了,然後你做的這個東西看起來挺有趣的,發了論文了,但是他覺得,我沒有能力去把你這個算法真的實作在系統裡面,我們太忙了,有其他的事情要做,這個東西可能不是他們的最高優先級。如果說是一個純商業的問題,這個工具可以給你的利潤提高10個點,他們可能就很積極地去做了,但是公益組織不是這樣的,他們有其他方面的考慮。怎麼能夠說服他們去做實際的測試和應用,在我們看來也非是常難的一個點。

我們的經驗就是,首先要充分尊重他們的意願,積極地跟他們溝通;其次是盡量減少他們需要付出的成本,包括時間成本、人力成本以及可能的金錢成本。我們在進行實際測試的時候,最好是把能幹的活都幹了,他們可能隻需要花幾個小時來跟我們開個會,讨論一下方案,然後準許一下我們上線前的測試是過關了的,就可以上線。這樣的話他們就更願意去做這樣的測試。

知識分子:你們的項目好像現在還是偏公益的居多一些,是考慮到研究本身的性質,還是你覺得這是最大化效益的工作?

方飛:我們并沒有排斥商業化的項目,但是我個人非常希望能夠幫助解決一些社會性的問題。我開玩笑說我們在做進階志願者,幫助一些政府組織或工業公益組織更好地向社會提供更高品質的服務。

這些問題是對社會來說是非常重要的,它可能并不一定能夠直接産生商業利益,但是這些都是影響很多人的問題,但是又沒有很多人去做。也可以了解,現在人工智能這麼火,可以想象去業界的話能賺很多錢,那麼當你有這個能力的時候,可能很多人選擇了去賺錢。也許很多人是對這件事感興趣的,但是真正投入去做的人沒有那麼多。我也希望我們能夠一方面自己去做一些工作,另一方面也能夠讓更多的人去參與這樣的工作。

我在學校裡教AI for social good(人工智能向善)的課,也是希望能培養更多的學生去接觸這樣的問題,解決這樣的問題。

知識分子:你剛剛也說了,找問題是一個難點。你怎麼看這個領域未來的發展,未來它還能夠應用在更多的領域、更多的問題上嗎?

方飛:我覺得有很多值得做的問題。我過去三年都在做AAAI(人工智能促進協會)的AI for social impact special track(AI社會影響力專刊)的co-chair(聯合主席),我們每年也都收到不少的論文,能看到很多人對這個感興趣,也不斷地在做這方面的工作。

未來還是有很多可以做的問題的,比如像聯合國的17個可持續發展的目标,我們現在的工作可能隻涉及到其中的四個目标,其實還有很多其他目标,中間可能也涉及到許多值得去做的問題。

社會總收益 vs 企業利潤

知識分子:很多企業用AI算法提升效率,但也受到一些诟病。外賣企業裡,騎手因為這些算法的規定,或者企業本身的政策,福利是在不斷下降的。你對相關的AI應用有哪些觀察,在企業責任或者用AI算法來改善的方面,有哪些能做的事情嗎?

方飛:公司肯定要追求利潤的,這肯定是他們的主要目标。那麼除了利潤之外,博弈論或者機制設計裡面經常會談到一個 social welfare,社會福利,所有人的收益之和。

在外賣平台或打車平台,平台的收益加上騎手或者是司機以及等餐的人、想要打車的人,所有人的收益之和是需要關注的一個目标函數。我們之前做優步等打車平台的定價政策的研究的時候,就是把目标設為了最大化社會收益。怎麼計算社會收益?比如對于乘客來說,他很想去這個地方,他願意花100塊錢去,然後他付了50塊錢,那麼他的收益就是100-50。

我們很難去跟商業公司說,你們不要關注利潤了,來關注社會總收益,這是非常困難的。但是我們看到的是,什麼樣的情況下,大家會更關注除了利潤以外的目标。

一個是監管,比如保險公司,可能一開始的時候,當沒有足夠的監管的時候,保險公司的定價政策會是有非常有偏見的,當一些事情被爆出來之後監管介入,監管可能就要求你保險的定價政策更公平。那麼在這樣的情況下,這些公司就會更考慮除了利潤以外的社會總收益,比如公平性的問題。

另一個是,一些情況下,我們可以去向這些公司證明,在你們的問題裡,其實最大化社會收總收益是跟最大化總利潤是差别非常小的。如果你去最大化社會總收益,也能夠獲得比較大的收益,可能不一定是最大化,但是也比較接近,但它能夠在社會總福利方面有一個更大的提升。我們研究打車平台的時候做過分析,在一定的假設之下,最大化社會總收益時也能夠得到比較高的利潤。

如何消除資料偏見?

知識分子:在AI研究裡,資料是基礎,但是也經常會遇到一些資料不準确或者偏見的情況,你的研究會遇到類似的問題嗎?怎麼去解決這些問題?

方飛:會。拿動物保護的情況來說,我們收集的資料就有很多的問題。比如說現有的資料都是護林員們之前非常辛苦地去巡邏,收集來的。但是他們并不是覆寫了所有的區域,可能某些區域去的比較多,另一些區域去的比較少,這就導緻去的比較多的區域,可能有更多的資料,而且這個地方到底盜獵有多高發,是比較準确的,能有一個相對比較準确的估計;但是對那些去的比較少的地方,即使他們說我去了,我沒有找到獵套,并不意味着那個地方從來沒有發生過盜獵,可能隻是因為他們去的少,去的時候正好沒發現獵套。

而且如果看總體的資料量,他們去過的所有地方裡面找到獵套的點肯定是少的,還是有更多的時候他們在路上走,什麼也沒有發現。這也說明資料中的不平衡,也是我們在設計機器學習算法來學習盜獵者的行為模型的時候需要去處理的挑戰。

我們嘗試了各種各樣的辦法,像最初的一版算法裡面,我們把整個保護區分成多個地塊,如果這個地塊它的資料量比較大,可以用稍微複雜一點的機器學習算法;如果這個地塊資料量不夠,我們就把資料量不夠的那些地塊所有的資料全部結合起來,然後去找一個對于資料量要求沒有那麼高的機器學習算法,比如決策樹之類的方法去預測。這是一開始的想法。

後來我們又做了很多其他的嘗試,比如在黃泥河保護區(位于吉林省),我們給當地的護林員發過問卷,問他們在我們劃分出來的整個保護區的多個區域裡,每個區域的總體盜獵風險是高還是低,根據他們的回答,我們去額外采樣一些新的資料點放到我們的資料集裡面,這一方面能夠幫助我們增加更多的資料,另一方面也可以糾正這些護林員本身的偏見。

人工智能進入死胡同了嗎?

知識分子:最近有一種說法是,AI已經走進了一個死胡同,隻适合處理一些存在低風險、存在完美答案的問題。你怎麼看這個說法?

方飛:一方面,咱們要承認現在人工智能還是沒有那麼進階的,是真的沒有那麼厲害。但是我覺得還是有很多可以做的。

一個是高風險的問題。相對來講,在高風險問題上,人工智能是輔助人類進行決策的,并不是想要代替人類進行決策,我們知道決策是高風險的決策,我們做的事情是希望能夠給決策者提供更多資訊及更多的可選方案。

現在有很多人在做可解釋性的人工智能,一定程度上是想要解決在高風險場景應用AI的問題。

其中一個方向是,最後我不要一個神經網絡,我需要的是一個決策樹,是能夠畫出來、人能夠直接看得懂的,一個基于規則的分類器。可能它的表現沒有深度學習那麼好,但還是可以有比較好的表現。在我去訓練決策樹的過程中,可能還是需要深度學習的,隻是最後呈現的是一個決策樹,這樣的話人至少能夠看得懂。

還有一些其他路線,比如說我預測或做決策還是用深度學習的模型,但是我去跟人用自然語言解釋它在做出這樣的預測和決策時,是哪一些特征起到了關鍵的作用,使得它最後做出了這樣的預測或者決策。

還有其他各種各樣的方向。我們自己也在做一些,希望能夠把人工智能裡面的一些黑盒子給打開,讓相關的決策者能真正地了解AI在做什麼,至少可以去檢查和驗證人工智能找到的這些東西到底有用還是沒用,再決定要不要使用它。

當然另外一方面,我覺得AI for social good還沒有到瓶頸期,還有很多問題值得去做,是以也希望更多的人能夠關注這個方面的研究,能夠更願意去做一些這方面的研究。

當你說很多問題已經被解決的時候,可能是圖像分類、醫療圖像識别這樣的問題。這些問題做的人可能已經很多了,做了很久了,已經到了一個非常不錯但是再進一步就很困難的地方。但是我覺得AI for social good這塊還是藍海的狀态,因為相對圖像處理語音處理或者自然語言處理,這裡沒有一個規範的資料集或一個特定的問題,大家要不斷去開發越來越好、越來越新的算法,要去了解不同的問題,這個問題裡面有什麼是AI能夠去幫助解決的,什麼樣的方法是最合适去解決的,最後怎麼做系統性的測試,推動落地。除了算法設計以外,還有很多其他的工作需要做。

知識分子:在未來2年内或者5年内有什麼想做的方向,或者要進行的工作嗎?

方飛:現在我希望能夠深挖的領域還是動物保護、食物救助和交通運輸相關的一些問題。

正在進行中的,一個是我們正在跟世界自然基金會(WWF)合作動物保護相關的新工作。我們想幫助他們自動收集新聞報道和政府報告,找到跟自然保護區和動物保護相關的文章,然後把這些文章整理成可視化的、可以去直接檢視和分析的形式,這樣能夠節省他們的時間。他們現在是靠人力在做這些事。

這個工作已經開始實地測試了,已經在WWF内部的系統裡面用上了,我們在不斷收集回報,改進工作。這個問題其實沒有涉及到博弈的問題,涉及到很多自然語言處理的東西。

食物救助那塊,我們還是希望能夠把現有的算法落地,然後去探尋新的問題。

我們還有一些正在進行中的工作是跟網絡安全相關的,這個問題裡面很明顯有博弈。我們之前做過一些博弈論的模型和算法,現在還是想導出更好的、更貼近實際的模型,更好的算法。我們也希望我們做的東西更接近被實際使用的階段。

知識分子:我有一個可能不是很切實際的想法,想到國内最近的疫情,在打疫苗上大家也是有很多的猶豫。你的工作有可能解決鼓勵大家打疫苗的問題嗎?

方飛:如果已經有一些獎勵機制,我們也許可以去分析這個機制,或許可以更精細化地獎勵,讓最後的效果更好,這是有可能的一個方向。

給學習者的建議

知識分子:對于想要來學博弈論跟深度學習結合的方向的學生,你會有給他們什麼樣的建議呢?

方飛:一個是基礎還是要打的。大學階段如果有能夠接觸到博弈論相關的課程,以及深度學習、多智能體相關的課程,還是建議去學習一下,尤其是如果有一些課程的項目,或是自己比較感興趣的項目可以去做的話,有時候做項目的過程是能幫助你更好地了解你學到的東西的。這個項目甚至不一定說你最後要發論文,可能就是去做一些對你來說感興趣的、有探索性的工作。

知識分子:最後想問一下,你獲得斯隆獎有什麼感想嗎?

方飛:我也是真的沒有想到,因為我之前申請過一次,沒有拿到。今年又申請,我其實并沒有抱很高期望,後來拿到也覺得非常榮幸。因為它不隻是給計算機領域的,它是給很多領域的學者,是以好像得到的關注度比較高。

除了我自己獲獎這件事讓我很驚喜以外,另外一個我覺得挺驚喜的,是今年獲獎者的名單裡面有很多的華人或者華裔,還有很多的女生,這個可能是之前我沒有看到的,說明我們(華裔)在北美做得挺好的。

參考資料:

[1] V. Conitzer, T. Sandholm, Computing the Optimal Strategy to Commit to, EC’06, June 11–15, 2006, Ann Arbor, Michigan, USAhttps://users.cs.duke.edu/~conitzer/commitEC06.pdf

制版編輯|姜絲鴨

繼續閱讀