天天看點

全球招募|北京大學AI研究院多智能體中心學術冬令營

北京大學人工智能研究院

WINTER CAMP

學術冬令營

時間:1月15日-2月21日

項目預計截止日期:5月31日

全球招募|北京大學AI研究院多智能體中心學術冬令營

北京大學人工智能研究院多智能體中心學術冬令營開始招募啦~

在這裡,你不僅可以跟随中心的老師們進行項目的研究與學習,增加你的科研實踐經曆;更能豐富人生體驗,提高你的獨立自主能力和創新精神。

2022~就讓北京大學人工智能研究院多智能體中心學術冬令營陪伴你開啟新的一年吧~

項目方向

基于合作型多智能體強化學習技術的雙靈巧手控制

合作老師:楊耀東

課題:該課題将探索如何控制兩隻靈巧手進行的合作任務,例如端盤子,揉圓子,轉魔方等。我們将探索如何使用多智能體強化學習技術進行對雙靈巧手控制的模組化,并且從合作博弈的角度出發設計算法。

參考文獻:https://openreview.net/pdf?id=7uSBJDoP7tY https://openreview.net/pdf?id=EcGGFkNTxdJ

技能要求:熟悉強化學習基本概念,有調試強化學習算法相關經驗。程式設計能力出衆可破格。

周期:6-12個月。

點選上文展開項目詳細資訊

帶有安全限制的多智能體強化學習算法設計與應用

課題:符合安全性的強化學習技術具有着重要應用,例如無人駕駛,機械制造等等。本課題将研究如何在一個多智能體系統中設計具有安全性限制的強化學習過程。我們将探索滿足安全性限制的強化學習架構, 并探索如何針對一個多智能體系統進行安全性的學習。

參考文獻:https://arxiv.org/abs/2110.02793

時期:6-12個月。

面向通用人工智能的元強化學習算法設計

課題:面向通用人工智能,智能體往往需要能夠有同時完成多個任務的能力。本課題從數學模組化的角度,對元強化學習模組化并且設計學習算法,其目标使用分層強化學習,内層代表一個智能體由自身獎勵函數驅動的強化學習,外層代表跨任務的學習限制,進而達到讓智能體擁有元學習不同任務的能力。

參考文獻:https://arxiv.org/abs/2112.15400

群體博弈

合作教師:李阿明

課題:從可觀察到的鳥群、魚群,到不易察覺的微生物群體,再到傳感器、群體機器人協作系統等,多類自然與人造群體系統存在于我們周圍。這些由多個簡單個體組成的群體系統,展現了超乎想象的諸多類型的智能行為。近年來,随着交叉學科的迅速發展,群體智能相關研究得到了不同領域科學家的集中關注與深入探索。然而,随着高新技術的飛速發展和我們對高精度海量個體互動資訊擷取能力的不斷提升,群體系統的結構分析、群體互動與智能決策這一科學問題面臨重要挑戰。本研究課題重點關注群體系統中個體互動博弈、政策演化、個體智能決策等方面的問題,探索複雜網絡上群體互動博弈。課題組通過向學生介紹演化博弈論、網絡科學等基礎知識為出發點,進一步通過輔助閱讀經典文獻、激發提出科研問題、探索科研問題等方式,為學生提供探索群體智能相關問題的平台,優秀者可在短期科研訓練結束後繼續參與到課題組的研究之中,共同發表學術發現。

參考文獻:

Li, A., Zhou, L., Su, Q., Cornelius, S. P., Liu, Y.-Y., Wang, L. & Levin, S. A. Evolution of cooperation on temporal networks. Nature Communications 11, 2259 (2020).

技能要求:數理基礎紮實,掌握基本的計算機程式設計,對理論探索有興趣。

時期:6個月以上

網絡能控性

合作教師: 李阿明

課題:近年來,網絡科學的迅速發展為我們了解、分析與控制多機器人協作、智能電網、智能交通等複雜系統提供了有效的切入點。雖然靜态網絡相關探索已取得突破性進展,但是實際系統中的網絡往往是随着時間演化的時序網絡,即網絡中的節點與連邊不總是處于被激活的互動狀态。換言之,網絡本身演化的時間尺度并不總是長于其上系統動力學相對應的時間尺度。本課題旨在分析時序網絡在演化的同時,其對應系統能控性的變化,以及如何設計相應的外部控制輸入,使得系統狀态沿着期望方向演化。課題組将帶領學生了解網絡控制這一前沿領域的相關基礎知識,研讀領域經典文獻,提出并探究具有創新性的科學問題,親身體會時序網絡控制對于各類重大工程技術系統設計的重要意義。優秀者可在短期科研訓練結束後繼續參與到課題組的研究之中,共同發表學術發現。

Li, A., Cornelius, S. P., Liu, Y.-Y., Wang, L. & Barabási, A.-L. The fundamental advantages of temporal networks. Science 358, 1042-1046 (2017).

不完全資訊二人博弈的機器學習算法分析

合作教師:鄧小鐵

題目:實作不完全資訊下博弈的簡單系統架構、案例分析。

技能要求:堅實的計算機程式設計基礎,數學基礎,對理論探索感興趣。

周期:按任務和工作量安排不同:1-3個月或者2-6個月或者3-9個月。

基于機器學習的機制設計研究

題目:機制設計在網際網路廣告、拍賣、政策制訂、區塊鍊中扮演着核心角色。我們拟采用機器學習進行自動機制設計,并進行相關的理論分析。

參考文獻:https://arxiv.org/abs/2110.06880

技能要求:紮實的數學基礎,優秀的程式設計能力,有深度學習經驗者優先。

周期:3-9個月,以NeurIPS/ICLR/AAMAS為投稿目标。

Grounding Language for Generalization in Reinforcement Learning

合作教師:盧宗青

題目:泛化性是強化學習中的重要問題也是難題,真正實作泛化性需要智能體對MDP具有抽象的表示能力,目前來看還很難做到這一點。但我們可以換一個角度思考。人類語言是高度抽象的表示,智能體能不能借助人類語言實作政策泛化性。本研究将探索結合自然語言實作強化學習政策泛化性,讓智能體學會grounding manuals/instructions to MDPs,進而實作泛化性。

參考文獻:https://arxiv.org/abs/2101.07393

技能要求:熟悉強化學習的基本概念,有調試強化學習算法的經驗。

周期: 大于6個月。

非完美資訊博弈中的強化學習算法設計與應用

合作教師:李文新

題目:許多傳統遊戲屬于非完美資訊博弈,如德州撲克、麻将、鬥地主等,其最優政策需要考慮到非完美資訊帶來的不确定性。我們調研該領域的研究現狀,并探索如何将強化學習算法應用到特定遊戲環境中,減少随機性帶來的訓練不穩定問題,訓出高水準的智能體。

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning

技能要求:熟悉強化學習的基本原理,有調試強化學習算法的經驗,對遊戲AI研究感興趣。

基于風險度量的強化學習算法研究

合作教師:彭一傑

研究内容:經典的強化學習算法通常是圍繞期望準則設計的,智能體在與環境的互動中追求期望回報的最大化。期望反映了智能體表現的平均水準,而對其分布尾部的極端表現沒有限制。風險度量是一族考慮了系統在極端環境下表現水準的度量工具,在金融投資等領域的風險管理中已有廣泛的應用。本課題嘗試将不同的風險度量融入智能體的決策中,提出圍繞風險準則疊代的強化學習算法,并向更複雜的多智能體訓練場景拓展。不同的風險度量将放大人們所感興趣的極端表現的重要性,使得智能體的總體表現更為穩健。

課題要求:熟悉經典強化學習算法理論;熟悉Python語言及Pytorch架構的使用。

參考文獻

[1] Chow Y, Ghavamzadeh M, Janson L, et al. Risk-constrained reinforcement learning with percentile risk criteria[J]. The Journal of Machine Learning Research, 2017, 18(1): 6070-6120.

[2] Prashanth L A, Jie C, Fu M, et al. Cumulative prospect theory meets reinforcement learning: Prediction and control[C]//International Conference on Machine Learning. PMLR, 2016: 1406-1415.

基于似然比方法的機器學習算法研究

研究内容:在現代機器學習算法中神經網絡充當着重要的角色,對其梯度估計方法的改進将廣泛影響機器學習的應用發展。目前主流的反向傳播方法依賴于計算圖和鍊式求導法則,其對計算圖的連續性和已知性要求限制了網絡形态的設計,也迫使梯度估計隻能做到神經層内的并行。本課題嘗試将似然比技巧應用到神經網絡的梯度估計中,提出不受前述依賴制約的似然比梯度估計方法。似然比方法可以處理不連續的甚至未知的計算圖,在以脈沖信号為輸入的新一代神經網絡中有着獨特的應用前景;同時,該方法理論上還具有在整個神經網絡中并行的潛力。

課題要求:熟悉機器學習算法的基本理論;熟悉Python或C++語言的使用;對并行化程式設計有經驗者優先。

[1] Peng Y, Xiao L, Heidergott B, et al. A new likelihood ratio method for training artificial neural networks[J]. INFORMS Journal on Computing, 2021.

[2] Tavanaei A, Ghodrati M, Kheradpisheh S R, et al. Deep learning in spiking neural networks[J]. Neural Networks, 2019, 111: 47-63.

基于動态仿真抽樣的蒙特卡洛樹搜尋算法理論與應用

研究内容:傳統上蒙特卡洛樹搜尋采用機器學習領域的多臂老虎機問題中的UCT算法做節點選擇,但該問題的假設與蒙特卡洛樹搜尋的結構并不吻合。多臂老虎機問題中每一步都可以獲得回報,而蒙特卡洛樹搜尋中需要到終止節點才能獲得回報;此外,UCT算法僅利用了節點估計的均值與節點被通路的次數,而未利用如節點估計的方差等其它資訊。課題嘗試将仿真優化領域的統計排序與選擇問題的政策融入蒙特卡洛樹搜尋中,提出采用動态仿真資源配置設定政策做節點選擇的高效蒙特卡洛樹搜尋算法,并在對弈遊戲中應用;開發對弈遊戲平台,便于開展算法研究。

課題要求:熟悉動态規劃和強化學習算法;熟練使用Python/Matlab程式設計。

[1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. nature, 2016, 529(7587): 484-489.

[2] Peng Y, Chong E K P, Chen C H, et al. Ranking and selection as stochastic control[J]. IEEE Transactions on Automatic Control, 2018, 63(8): 2359-2373.

[3] Li Y, Fu M C, Xu J. An Optimal Computing Budget Allocation Tree Policy for Monte Carlo Tree Search[J]. IEEE Transactions on Automatic Control, 2021.

基于強化學習算法的供應鍊管理實踐

研究内容:強化學習任務通常使用馬爾科夫決策過程(Markov Decision Process,簡稱MDP)來描述,其包含兩種最基本的元素:狀态與動作,而在某個狀态下執行某種動作,這便是一種政策。庫存管理和物流交通管理是供應鍊管理中至關重要的兩個部分,在庫存管理中,因為庫存量大,庫存需求波動較大,庫存補貨速度緩慢等問題使得對其管理存在嚴峻挑戰,現有研究表示:通過靈活設定狀态、動作等要素,基于合理的強化學習算法選取最優政策,可以達到減少庫存周轉時間,降低庫存成本等目的[1]。物流交通管理直覺上是一個動态連續的過程,但通過合适的離散化處理以及函數逼近方法也能夠使其适應強化學習的架構。本課題拟從上述兩方面出發,研究設計出在大規模狀态空間中,比現存算法更優的強化學習算法,并提煉出統一性的架構,使其成為解決該類問題的通用方法,進而提高問題解決能力,減少為類似大規模問題逐一精确設計啟發式算法的時間。

課題要求:熟悉運籌學、動态規劃和強化學習算法;熟練使用Python/Matlab程式設計。

[1] Gijsbrechts, Joren, et al. "Can deep reinforcement learning improve inventory management? performance on dual sourcing, lost sales and multi-echelon problems." Manufacturing & Service Operations Management (2021).

[2] Boute, Robert N., et al. "Deep reinforcement learning for inventory control: a roadmap." European Journal of Operational Research (2021).

農地經營權抵押貸款信用風險評價

研究内容:金融作為現代經濟的核心,在鄉村振興多元投入格局中具有基礎地位和支撐杠杆作用,其風險治理水準直接影響着新時期農業農村高品質發展的穩定性。十八大以來,中央政府多次強調防範化解重大風險,尤其是金融風險,并相繼頒布了系列治理措施。近些年,農村金融産品與服務的創新步伐不斷加快,農村金融改革創新程序中的潛在風險問題值得高度重視。作為農地“三權分置”制度架構下我國農村金融改革的重要創新,農地經營權抵押融資在解決農戶貸款抵押難、擔保難問題,盤活農村存量資産、活躍農村經濟方面發揮了顯著作用。與此同時,不容忽視的是,因受限于土地産權交易市場發展滞後、農業經營主體信用體系不完善、抵押物價值不穩定以及風險管理體系不健全等多重因素,農地經營權抵押貸款業務開展面臨着風險與收益不對等的困境。前期試點地區的部分銀行或信用社農地經營權抵押貸款供給存在規模收縮或基本停滞現象。在此背景下,系統開展農地經營權抵押融資風險評估,尤其是農地抵押貸款業務的核心風險——信用風險評價研究,對于破解農地經營權抵押貸款症結、提高農地金融市場有效性具有重要現實意義。梳理已有研究看,已有研究集中于農地抵押貸款風險分類、引緻因素及防控措施的定性分析,僅有少量學者對農地抵押貸款的風險因素進行了識别和評價,另有個别研究運用Logistic回歸分析農地抵押貸款信用風險影響因素并預測違約機率,同時依據CreditRisk+模型,對信用風險衡量進行了研究。然而,已有研究存在兩方面的不足:一是農地抵押貸款信用風險的關鍵參數估計方法存在不足,運用Logistic回歸預測違約機率往往存在“信用得分很高,但違約率較高”的悖論;二是現有的個體信用風險研究大多隻是得出個體信用評分,尚不能實作在估算出金融消費者的信用得分基礎上,進一步計算出貸與不貸的臨界值。而這個臨界值才是真正可以為金融機構提供貸款決策參考的依據。

研究目标:

(1)利用機器學習相關方法(如随機森林、深度森林等)優化信用風險的關鍵參數估計,以提高信用得分評價有效性;

(2)可以在信用評分基礎上,估算出貸與不貸的臨界值(可以用系統仿真進行模拟)。

課題要求:

(1)具有金融風險相關的研究基礎

(2)會運用機器學習、系統仿真相關方法

[1]呂德宏,張無坷.農地經營權抵押貸款信用風險影響因素及其衡量研究——基于CreditRisk+模型的估計,華中農業大學學報(社會科學版),2018(4):137-147.

[2] Milad Malekipirbazari, Vural Aksakalli. Risk assessment in social lending via random forests. Expert Systems with Application,2015,42:4621-4631.

[3] X. Ma, J. Sha, D. Wang, Y. Yu, Q. Yang, X. Niu, Study on A Prediction of P2P Network Loan Default Based on the Machine Learning LightGBM and XGboost Algorithms according to Different High Dimensional Data Cleaning, Electronic Commerce Research and Applications (2018), doi: https://doi.org/10.1016/j.elerap.2018.08.002

申請方式及其他

繼續閱讀