小叽導讀:本文介紹以手淘促活為目的的全鍊路智能投放算法架構,該架構目前接入以 Pagani 為核心的全鍊路營運平台,使用使用者意圖識别算法圈選出目标人群,借助物料智能推薦和權益動态面額等算法實作全鍊路上使用者的個性化觸達幹預。以2019春節手淘促活為例,介紹權益智能投放架構的設計思路和實際應用。
一、背景:春節手淘促活
由于快遞物流、商家打烊等因素,春節是電商的淡季。對于手淘來說,在春節期間,使用者的活躍程度有明顯的下滑, DAU 出現一段時間的低谷。通過算法提前預測春節期間活躍度會發生下降的預警人群,配合不同階段的使用者營運幹預(在節前預熱期結合春節“吃喝玩樂”的場景,算法個性化推薦相應的虛拟權益;春節期間通過 PUSH 消息每日推送提升來訪率),可以有效地促進使用者回訪、扼制使用者活躍度的降低。
如圖,通過對近兩年春節前後的 DAU 的變化趨勢進行統計分析,我們發現,春節對 DAU 的影響持續以除夕為中心的近一個月的時間(從臘月十六到正月十五左右),而傳統春節放假的 7 天是 DAU 的最低谷( 18 年除夕晚有春晚紅包加持除外)。
根據以上分析結果,可定義出模型預測的關鍵的時間節點。在節前,通過算法預測,從臘月十六到正月十五的春節30天期間,活躍度會發生下降的“降級預警人群”,在整個活動期對“降級預警人群”進行有針對性的使用者營運幹預,而在進行幹預時,又可以通過推薦算法,結合使用者的意圖識别,進行權益的個性化承接。
二、全鍊路智能投放算法架構
如圖所示,權益智能投放算法架構,主要包括意圖識别、權益推薦兩個功能子產品:
意圖識别:
解決“是否發”的問題,側重點在于“圈人”,給什麼樣的使用者發放權益;
對于春節促活項目的具體訴求,通過使用者的來訪意圖模型,提前預測無來訪的使用者,在站内通過支付成功頁等場景的權益觸達提前幹預,站外通過PUSH消息等管道進行權益觸達和召回。
權益推薦:
解決“發什麼”的問題,給使用者發放什麼樣的權益;
拿到圈選的人群後,需要對人進行“千人千面”的權益個性化承接。
三、算法子產品
3.1 意圖識别
意圖識别,根據使用者畫像和曆史行為,預測使用者未來某一時間段内、某種行為(如使用者的來訪、點選、收藏、加購、購買等)的發生的機率。
對于使用者增長來說,大部分情況下,營運的幹預目标往往不是單一的,而是“既要、又要、還要、也要”的。對于營運的一個幹預政策,目标是多樣性的,需要考慮來訪率、次日留存率、浏覽轉化率、成交轉化率、ROI等不同的目标如何權衡和綜合優化。
針對不同的幹預目标,構造樣本資料和搭建多意圖的訓練體系:
- LABEL選取和樣本構造:
根據不同的優化目标,加工資料,選用不用的LABEL和抽取樣本,如領取率LABEL對應權益是否領取,核銷率LABEL對應權益是否核銷,成交轉化率對應使用者是否有下單支付等。
- 使用者意圖體系建構:
1)訓練使用者來訪、點選、收藏、加購、購買等不同的意圖評分模型;
2)意圖模型日常評估:
- 使用者購買意圖:AUC = 0.83,F1 score = 0.76
- 使用者來訪意圖:AUC = 0.86,F1 score = 0.78
- 使用者點選意圖:AUC = 0.76,F1 score = 0.88
- 使用者加購意圖:AUC = 0.80,F1 score = 0.64
- 使用者收藏意圖:AUC = 0.88,F1 score = 0.58
具體到春節使用者無來訪的預測問題來說,核心就是使用者來訪意圖的預測。以 2017 年春節期的資料作為訓練集, 2018 年春節期的資料作為測試集,評估資料如下:
3.2 權益推薦
權益推薦,解決使用者的權益個性化承接的問題,綜合考慮使用者的權益偏好和敏感度、各類權益的目标人群和庫存量、平台的補貼成本等,實作使用者、商家、平台的三方共赢。
手淘春節促活項目,是全鍊路智能投放架構首次應用于購後發放權益,由于初次上線且投放時間較短,算法需要快速疊代和提升效果。推薦算法經過冷啟動、引入CTR模型、 Thompson Sampling 調權等 3 輪疊代,快速優化和提升了點選率和核銷率。
- 3.2.1 冷啟動政策
冷啟動的政策設計主要包含兩部分:
1)ε-Greedy算法
解決冷啟動問題和優化系統 E&E 問題的最基礎、簡捷的方法。其基本思路為:在 (0, 1) 之間選擇一個較小的ε值,然後以ε的機率選擇流量,從權益底池中進行随機推薦,即完成勘探Exploration的功能,以 1 - ε 的機率選擇流量,基于先驗資訊設計的決策樹推送權益,即利用現在已有的先驗資訊完成開發Exploitation的功能。
2)基于先驗資訊設計決策樹
在上線初期,權益底池中的各類優惠券還沒有曝光、點選資訊時,可以根據使用者的基礎畫像資訊,以及使用者在站内已有的浏覽、加購、購買等行為的資訊,作為設計決策樹時的一部分先驗資訊。
- 3.2.2 CTR模型
權益推薦子產品,相比于使用者意圖識别,增加了“權益”這個實體,是以在特征的設計上需要更多的考慮權益次元、使用者和權益的交叉特征等。可以說使用者意圖識别是一個偏使用者洞察了解的問題,而權益個性化則是一個典型的推薦問題。
如圖所示,在特征的設計上,主要包括使用者次元特征、權益次元特征,以及使用者和權益的交叉特征:
使用者次元特征的設計,與使用者意圖識别子產品基本類似,可以複用使用者的基礎特征、行為特征。而在權益次元,則需要更多地考慮權益本身的差異,通過标題、面額、所屬二方業務、權益所映射的類目 ID ,以及曆史的領取率、核銷率更細緻地刻畫不同權益的差異性。同時,将使用者的特征與權益的特征進行交叉,來學習不同畫像的使用者在指定權益上的偏好。
點選率預估模型選取的是 XFTRL 。XFTRL 是基于阿裡的 eXtreme Parameter Server 平台開發的高性能異步 ASGD FTRL 算法,能夠支援千億規模的特征和長時間連續增量訓練。
2017年,阿裡巴巴推薦算法團隊和計算平台 PAI 團隊合作打造了 eXtremeParameter Sever 機器學習平台(XPS),廣泛全流量運作在手機淘寶的猜你喜歡、生活研究所、飛豬旅行和天貓推薦等大資料場景,取得了較好的效果。
FTRL 是一種 Online Learning Optimizer ,原始的 FTRL 的具體資料可以參考論文:Mcmahan, H. Brendan , et al. "Ad click prediction: a view fromthe trenches." Proceedings of the 19th ACM SIGKDD internationalconference on Knowledge discovery and data mining ACM, 2013.
XFTRL 算法是對經典線性算法 FTRL 的擴充,是為了解決大規模資料下 FTRL 的一些缺點而提出的。集團内的多數場景對于使用者行為時效性要求很高,實時/準實時學習可以充分利用實時日志資料,快速更新模型來适應使用者最新行為,更好地強調近期樣本的重要性,可以實時快速疊代,快速反應線上變化。
利用上線初期積累的3天的樣本訓練模型,測試集評估 AUC 僅達 0.61 。另外,在分析時發現各個二方權益的曝光量差異較大,且長尾的二方權益的量很小,是以在短時間内優化算法, E&E 機制的設計就至關重要。
- 3.2.3 E&E 優化
長尾 item 在推薦系統中很少或沒機會展示,導緻 CTR 預估不準,需要探索性給他們創造一些機會,但不能給系統帶來太大損失,這就是 E&E 問題。針對 E&E 的問題,我們選取了比較經典的 Thompson Sampling 算法進行 explore 。
湯普森采樣(Thompson Sampling)基于貝葉斯思想,全部用機率分布來表達不确定性。
假設每個 item 有一個産生回報的機率p,我們通過不斷試驗來估計一個置信度較高的機率 p 的機率分布。
假設機率p的機率分布符合beta(wins,lose)分布,它有兩個參數: wins, lose, 每個 item 都維護一個 beta 分布的參數。每次試驗選中一個 item ,有回報則該 item 的 wins 增加 1 ,否則 lose 增加 1 。
每次選擇 item 的方式是:用每個 item 現有的 beta 分布産生一個随機數b,選擇所有 item 産生的随機數中最大的那個 item 。
湯普森采樣算法的核心在于确定 Beta 分布的參數,以表征後驗的 ctr ,如下圖所示,為湯普森采樣拟合後驗 ctr 的分布曲線:

湯普森采樣代碼實作比較簡單,在 Java 中可以基于 math3.distribution.BetaDistribution 包快速實作。在計算廣告和推薦領域應用的效果與 UCB(Upper Confidence Bound ,一種基于估計的置信區間設計的E&E優化政策)相比 competitive to or better ,且對于資料延遲回報、批量資料回報更 robust 。
四、實驗效果
整個春節促活項目,包括意圖識别“圈人” 和權益推薦的 “個性化承接”兩部分, 是以AB實驗設計上,包括圈人的幹預桶與空桶的對比(衡量幹預帶來的活躍度提升和DAU增量),和權益個性化承接算法桶與随機桶的對比(衡量權益個性化算法的效能)。
手淘促活整體AB名額 (幹預桶對比空桶)
- 幹預桶日均來訪率提升1.2%
- 幹預桶人群活躍度未下降的使用者比率提升1.42%
權益個性化AB名額(算法桶對比随機桶)
- 領取率提升40%
- 核銷率提升100%
五、對未來的期望
更完備的資料鍊路:
資料是算法的核心驅動力,完備的資料鍊路至關重要。目前有一部分場景的埋點和資料鍊路尚未打通,比如進入二方承接頁的資料的回撈的問題,後續是重點推動和解決的。
引入”供需平衡“的配置設定機制:
在多供給物料混排時,綜合考慮供需關系,從博弈論和機制設計的角度考慮整個系統,設計供給與需求之間的遊戲規則,進一步提升活躍使用者在鍊路核心節點的轉化率。
沉澱使用者生命期有效算法幹預政策:
依靠現有的使用者增長權益智能發放體系,沉澱各生命期使用者算法幹預組合政策。