天天看點

強化學習在阿裡的技術演進與業務創新 | 免費資料庫

目前的機器學習算法⼤緻可以分為有監督的學習、⽆監督的學習和強化學習(Reinforcement Learning)等。強化學習和其他學習⽅法不同之處在于強化學習是智能系統從環境到⾏為映射的學習,以使獎勵信号函數值最⼤。如果智能體的某個⾏為政策導緻環境正的獎賞,那麼智能體以後産⽣這個⾏為政策的趨勢便會加強。強化學習是最接近于⾃然界動物學習的本質的⼀種學習範式。然⽽強化學習從提出到現在,也差不多有半個世紀左右,它的應⽤場景仍很有限,規模⼤⼀點的問題就會出現維數爆炸,難于計算,是以往往看到的例⼦都是相對簡化的場景。

強化學習在阿裡的技術演進與業務創新 | 免費資料庫

最近因為與深度學習結合,解決海量資料的泛化問題,取得了讓⼈印象深刻的成果。包括DeepMind 的⾃動學習玩ATARI 遊戲,以及AlphaGo 在圍棋⼤賽中戰勝世界冠軍等,其背後的強⼤武器就是深度強化學習技術。相對于DeepMind和學術界看重強化學習的前沿研究,阿⾥巴巴則将重點放在推動強化學習技術輸出及商業應⽤。

在阿⾥移動電商平台中,⼈機互動的便捷,碎⽚化使⽤的普遍性,頁⾯切換的串⾏化,⽤戶軌迹的可跟蹤性等都要求們的系統能夠對變幻莫測的⽤戶⾏為以及瞬息萬變的外部環境進⾏完整地模組化。平台作為資訊的載體,需要在與消費者的互動過程中,根據對消費者(環境)的了解,及時調整提供資訊(商品、客服機器⼈的回答、路徑選擇等)的政策,從⽽最⼤化過程累積收益(消費者在平台上的使⽤體驗)。基于監督學習⽅式的資訊提供⼿段,缺少有效的探索能⼒,系統傾向于給消費者推送曾經發⽣過⾏為的資訊單元(商品、店鋪或問題答案)。⽽強化學習作為⼀種有效的基于⽤戶與系統互動過程模組化和最⼤化過程累積收益的學習⽅法,在⼀些阿⾥具體的業務場景中進⾏了很好的實踐并得到⼤規模應⽤。

在搜尋場景中,阿⾥巴巴對⽤戶的浏覽購買⾏為進⾏MDP 模組化,在搜尋實時學習和實時決策計算體系之上,實作了基于強化學習的排序政策決策模型,從⽽使得淘寶搜尋的智能化進化⾄新的⾼度。雙11 桶測試效果表明,算法名額取得了近20% 的⼤幅提升。在推薦場景中,阿⾥巴巴使⽤了深度強化學習與⾃适應線上學習,通過持續機器學習和模型優化建⽴決策引擎,對海量⽤戶⾏為以及百億級商品特征進⾏實時分析,幫助每⼀個⽤戶迅速發現寶貝,提⾼⼈和商品的配對效率,算法效果名額提升了10%~20%。

在智能客服中,如阿⾥⼩蜜這類的客服機器⼈,作為投放引擎的agent,需要有決策能⼒。這個決策不是基于單⼀節點的直接收益來确定,⽽是⼀個較為長期的⼈機互動的過程,把消費者與平台的互動看成是⼀個馬爾可夫決策過程,運⽤強化學習架構,建⽴⼀個消費者與系統互動的回路系統,⽽系統的決策是建⽴在最⼤化過程收益上,來達到⼀個系統與⽤戶的動态平衡。

在⼴告系統中,如果⼴告主能夠根據每⼀條流量的價值進⾏單獨出價,⼴告主便可以在各⾃的⾼價值流量上提⾼出價,⽽在普通流量上降低出價,如此容易獲得較好的ROI,與此同時平台也能夠提升⼴告與訪客間的比對效率。阿⾥巴巴實作了基于強化學習的智能調價技術,對于來到⼴告位的每⼀個訪客,根據他們的目前狀态去決定如何操作調價,給他們展現特定的⼴告,引導他們的狀态向我們希望的⽅向上做⼀步轉移,在雙11 實測表明,CTR,RPM 和GMV均得到了⼤幅提升。

當然,強化學習在阿⾥巴巴内部的實踐遠不⽌此,鑒于篇幅限制,這本電⼦書隻介紹了其中的⼀部分。未來深度強化學習的發展必定是理論探索和應⽤實踐的雙鍊路持續深⼊。希望這本電⼦書能抛磚引⽟,給⼯業界和學術界帶來⼀些輸⼊,共同推進深度強化學習的更⼤發展。

點選連結免費下載下傳:
https://developer.aliyun.com/topic/download?id=800

繼續閱讀