天天看點

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

近日,美國權威雜志《麻省理工科技評論》(mit technology review)釋出了2017全球十大突破性技術榜單,強化學習(reinforcement learning)技術位列該榜單第一位,正是阿裡近兩年布局和重點投入的技術之一。

該技術曾在2016年雙十一期間大規模應用于阿裡電商搜尋和推薦應用場景。通過持續機器學習和模型優化建立決策引擎,對海量使用者行為以及百億級商品特征進行實時分析,幫助每一個使用者迅速發現寶貝、為商家帶來投緣的買家,提高人和商品的配對效率,實作了使用者點選率提升10%-20%。阿裡是以成為國際上将該技術率先大規模應用在商業領域的企業之一。

下面是阿裡研究員仁基在雙11阿裡巴巴技術論壇上的分享:

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

以下内容根據線上分享和演講幻燈片整理而成。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

對于阿裡巴巴電子商務平台而言,它涉及到了買家、賣家和平台三方的利益,是以必須最大化提升消費者體驗;最大化提升賣家和平台的收益。在消費者權益中,涉及到了一些人工智能可以發力的課題,如購物券和紅包的發放,根據使用者的購物意圖合理地控制發放速率和中獎機率,更好地刺激消費和提升購物體驗;對于搜尋,人工智能主要用于流量的精細化比對以及在給定需求下實作最佳的人貨比對,以實作購物路徑效率最大化。經過幾年的努力,阿裡研發了一套基于個性化技術的動态市場劃分/比對技術。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

電商搜尋和推薦的智能化演進路程可以劃分為四個階段:人工營運和非智能時代、機器學習時代、準人工智能時代、人工智能時代。人工營運和非智能時代,主要靠領域知識人工專業營運,平台的流量投放政策是基于簡單的相關性+商品輪播;在機器學習時代,利用積累的大資料分析使用者購物意圖,最大化消費者在整個鍊路中可能感興趣的商品;準人工智能時代,将大資料處理能力從批量處理更新到實時線上處理,有效地消除流量投放時的誤區,有效地提高平台流量的探索能力;人工智能時代,平台不僅具有極強的學習能力,也需要具備一定的決策能力,真正地實作流量智能投放。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

智能化時代,對于搜尋和推薦而言,可以提煉為兩點:學習能力和決策能力。學習能力意味着搜尋體系會學習、推薦平台具有很強的模組化能力以及能夠索引原始資料到索引知識提升,學習能力更多是捕捉樣本特征空間與目标的相關性,最大化曆史資料的效率。決策能力經曆了從ltr到mab再到cmab再到drl的演變過程,使得平台具備了學習能力和決策能力,形成了智能化體系。

借他山之石以攻玉

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

借他山之石以攻玉。線上服務體系中,我們基于參數伺服器建構了基于流式引擎的training體系,該體系消費實時資料,進行online training;on training的起點是基于離線的batch training進行pre-train和fine tuning;然後基于實時的流式資料進行retraining;最終,實作模型捕捉實時資料的效果。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

上圖是基于wide & deep learning for recommender systems的工作建立的large scale sparse&dense dnn訓練體系的架構,該架構中利用batch learning進行pre-train,再加上online資料的retrain&fine tuning。模型在雙11當天完成一天五百萬次的模型更新,這些模型會實時輸送到線上服務引擎,完成online的prediction。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

streaming ftrl stacking@offline gbdt的基本理念是通過離線的訓練,在批量資料上建立gbdt的模型;線上的資料通過gbdt的預測,找到相應的葉子節點作為特征的輸入,每一個特征的重要性由online training ftrl進行實時調整。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

雙11當天的成交額是是普通成交日的十到十二倍,點選量将近三十倍。在使用者行為密集發生的情況下,有理由相信資料分布在一天内發生了顯著的變化,基于這樣的考慮,gbdt的training由原來的日級别更新到小時級别(每小時進行gbdt training),這些training的模型部署到streaming的計算體系中,對于實時引入的訓練樣本做實時的預測來生成對應的中間節點,這些中間節點和人工的特征一起送入ftrl決出相應特征的重要性。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

online learning和batch learning有很大的差別,在online learning的研發過程中,總結了一些技巧:

實時streaming樣本分布不均勻時,由于線上環境比較複雜,不同來源的日志qps和延遲都不同,造成不同時間段樣本分布不一樣,甚至在短時間段内樣本分布異常。比如整體一天下來正負例1:9,如果某類日志延遲了,短時間可能全是負例,或者全是正例,很容易導緻特征超出正常值範圍。對應的解決方案是提出了一些 pairwise sampling:曝光日志到了後不立即産出負樣本,而是等點選到了後找到關聯的曝光,然後把正負樣本一起産出,這樣的話就能保證正負樣本總是1:9;成交樣本緩存起來,正樣本發放混到曝光點選中,慢慢将training信号發放到樣本空間中。

異步sgd更新造成模型不穩定時,由于訓練過程采用的是異步sgd計算邏輯,其更新會導緻模型不穩定,例如某些權重在更新時會超出預定範圍。對應的解決方案是采用mini batch,一批樣本梯度累加到一起,更新一次;同時将學習率設定小一點,不同類型特征有不同的學習率,稠密特征學習率小,稀疏特征學習率大一些;此外,對每個特征每次更新量上下限進行限制保護。

預測時,在參數伺服器中進行model pulling,通過采用合理的model smooth和model moving average政策來保證模型的穩定性。

智能化體系中的決策環節

電商平台下的大資料是源自于平台的投放政策和商家的行業活動,這些資料的背後存在很強bias資訊。所有的學習手段都是通過日志資料發現樣本空間的特征和目标之間的相關性;進而生成模型;之後利用模型預測線上的點選率或轉化率,由于預測模型用于未來流量投放中,是以兩者之間存在一定的時間滞後(systematic bias),也就觀測到的資料和實際失效的資料存在着gap。在工作邏輯中,如果一個特征和目标存在很強的correlation,則該特征就應該線上上的預測中起到重要作用。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

在整個體系中,systematic bias很難做到理想化的控制,而且離線模型預期效果與線上的實際生效效果存在差異,這背後的根本原因是correlation并不等于causation,也就是特征與目标相關并不意味着特征出現一定導緻目标發生。

那麼怎麼解決offline reward signal不等于online dashboard metrics的問題呢?我們引入了強化學習,通過引入online user feedback更好地定義reward,對線上排序政策進行調整,使其具有更強的自适應性。

搜尋/推薦引擎決策體系

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

搜尋引擎和投放頁面天然存在互動:搜尋引擎觀測消費者的互動狀态;搜尋引擎根據互動狀态執行投放政策;投放政策之後,呈現商品結果頁,消費者在商品結果頁中的操作行為回報給搜尋引擎。引擎決策實際上能改變投放環境,進而影響消費者的互動,改變消費者的狀态。如果不需要建立從狀态到動作的政策映射,可以采用multi-armed bandits方法進行流量探索;如果需要建立該映射時,需要采用contextual mab方法;在新狀态下,考慮消費者的滞後feedback對于引擎在之前狀态下的action正确與否産生影響,需要引入強化學習的思想。

搜尋和推薦過程可以抽象成一個序列決策問題,從消費者與引擎的互動過程中尋找每一個不同狀态下的最優排序政策(各種排序因子的合理組合)。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

我們的目标是希望搜尋引擎決策體系進化為具有強化學習能力的智能化平台。過去的搜尋,我們隻能做到遇到同樣的使用者購物訴求下,盡可能保證做得不必以前最好的方法差,也就是所謂的historical signal==best strategy;一切模型都是建立在優化直接收益的基礎上。未來的搜尋,我們希望能夠保證長期收益最大化來決定引擎的排序政策,也就是immediate reward+future expectation=best strategy;未來的排序融合入模式都是建立在優化馬爾科夫決策過的基礎上,最大化the discounted reward。

基于強化學習的實時搜尋排序調控

下面簡要介紹下為應對今年雙11提出的基于強化學習的實時搜尋排序調控算法。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

對于強化學習,它的目标是最大化時刻t所選擇的政策的長期收益最大。對于離散state和離散action的情況,可以采用tabular rl方法求解;對于連續state和連續action,采用rl with function approximation。其中state表示使用者近期發生行為商品的可量化特征,action表示權重量化(次元是排序特征分),reward是systematic valid user feedback。

雙11采用q-learning的方式進行實時政策排序的學習,将狀态值函數從狀态和政策空間将其參數化,映射到狀态值函數的參數空間中,在參數空間中利用policies gradient進行求解;将狀态值函數q拆解成狀态值函數v(s)和優勢函數a(s,a)進行表達。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

其算法邏輯如上圖所示,基本算法是實作線上幾十個排序分的有效組合,樣本包括日志搜集到的狀态空間、action space(這裡對應的是排序分空間),獎賞是使用者有效的feedback,具體的排序政策表達公式以及政策更新和值函數更新的公式可以參考maei,hr的《toward off-policy learning control with function approximation》一文。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

在雙11采用的基于強化學習的實時搜尋排序調控的實作體系如上圖所示。當使用者輸入query時,會向系統詢問哪一種排序政策最适合自己;該查詢政策請求會上傳至線上政策決策引擎,線上政策決策引擎通過實時學習的q(s,a)模型合理選擇有效政策,然後再傳回給搜尋引擎;搜尋引擎依據目前狀态下最有效政策執行搜尋排序;在搜尋排序頁面展示的同時,系統會及時搜集相應的狀态 action以及使用者feedback的信号,并進入到online training process;而online training process會通過off-policy model-free rl方法學習state to action的映射關系,再從映射關系中得到線上排序所需要的政策參數;該政策參數由線上政策決策引擎通過policy invalid process輸出給線上搜尋引擎。

總結

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

整體搜尋/推薦希望建立一個close-loop for icube learning體系,其中icube要求系統具備immediate、interactive、intelligent的能力。整體從日志搜集到maximize rewards、minimize dynamic regret實作online training;其中training子產品能夠高效地部署到online service;而online service必須具有很強的探索和overcome bias能力,進而使得整個體系能夠适應新的資料,提升流量投放效率,同時能夠探索新奇和未知的空間。

『幹貨』阿裡研究員徐盈輝:線上AI技術在搜尋與推薦場景的應用

在ai應用到商業的過程中,未來努力方向是:

from batch to streaming,希望從historical batch learning轉化為life long learning;

整個學習體系由tailor for tasks 向利用transfer learning實作不同管道、應用下學習模型的複用轉變;

training process 從blackbox轉變為實作合理的knowledge representation,實作線上投放邏輯的controlled&comprehensible;

學習體系随着強化學習和線上決策能力的增強,從local optimization向global evolving轉變。

<a href="https://mp.weixin.qq.com/s/vfzvlsuk7wzbtg-vakndgg">原文連結</a>

繼續閱讀