【編者按】好的技術實戰分享從來不因為時間的流失而褪色。2011年開始營運的阿裡技術沙龍共積累35期,近100位深度實戰教育訓練資源(PPT+視訊)讓很多朋友大呼過瘾。接棒阿裡技術沙龍,雲栖社群特别挑選最具人氣的12場深度實戰分享組成【近戰】的第一個系列。其中包含新浪微網誌、淘寶搜尋、美團、美麗說、淘寶推薦、小米、支付寶、阿裡雲、淘寶無線在内,涵蓋模組化、個性化推薦、排序學習、系統優化、資料監控、流量優化、架構探索等多方面一線經驗總結。
以下為【近戰】第2篇,移動電商搜尋個性化技術。
移動端搜尋流量保持高速增長,移動搜尋與桌面搜尋互為補充,使得消費者的網購行為得以進一步普及化和深入化。本次演講主要介紹淘寶搜尋技術如何思考移動端 搜尋帶來的技術挑戰,如何來結合移動端裝置私有化,使用時間碎片化,輸入模式的多樣化,互動方式的便捷化等特點來優化移動端搜尋,及個性化在移動搜尋中的應用。
圖1
圖1是移動視角的基本結構圖。
圖2
圖2是移動搜尋産品形态。
<b>個性化體系結構</b>
個性化搜尋面臨的挑戰有很多:
大資料,稀疏,長尾,噪音:
淘寶上海量的商品,針對個體而言,發生行為的商品有限, 稀疏度在百萬分之一,甚至更低。
使用者行為模式的挖掘和利用:
網購行為的複雜性,如何準确的描述使用者的興趣和特色,包括長短期興趣等? People change over time。
冷啟動:
新使用者,新商品。
多樣性與精确性的兩難困境:
Interestingness v. relevance ,Need Serendipity
使用者界面與使用者體驗:
個性化體驗的可解釋性。
系統的挑戰性
評估的挑戰性
個性化搜尋誤區:
千人千面并非意味着,去追求單純個體的個性化體驗,個性化搜尋是立足于提升整體使用者的個性化體驗;
Personalization != customization;
勿忘行為模組化的基本假設——hypothesis:
接受商品 à 接受他得所有屬性;
過度個性化——搜尋場景的個性化:“to personalize or not to personalize “,Explore & Exploitation ;
主觀性 vs. 客觀性——“data driven”,購物行為所表現的個性化特點 != 使用者的實體個性化特征。
圖3
圖3展示了個性化技術的魅力。
圖4
圖4是鳥瞰個性化體系。
圖5
圖5為個性化體系框圖。Offline:離線模型訓練資料收集,過濾, 聚合,特征ID化,利用batch-learning産出nearline環節,online環節所需要的模型。Near-line:
建構于流式計算體系的實時日志解析,行為特征抽取,聚合,實時使用者profile預測,實時人群-商品累積行為特征計算,離散化處理;更新線上排序計算依賴的實時字段,UPS中實時userprofile字段,引擎中的商品正排字段;建構基于mini-batch的線上學習模型,增強系統的适應新資料的能力和explore能力; 實時反作弊。Online:各個排序次元模型的線上預測;多個排序因素的線上融合;EE 政策。
個性化體系的移動元素:
查詢意圖——時間,地點,逛/搜;pull or push。
使用者肖像——移動端特色資料;跨屏行為模組化,實時肖像特征。
P(滿意|query,使用者,商品)。
實時個性化。
E&E。
<b>Query/User </b><b>意圖識别</b>
<b> </b>圖6和圖7是Query/User 意圖識别,
圖6
圖7
圖8
圖8為Query 的隐含個性化需求。
<b>個性化資料</b>
<b> </b>
<b> </b>
圖9
如圖9,私有化/移動化/社交化,跨屏行為、實時使用者肖像。
圖10
如圖10,使用者個性化體系的實時使用者DNA。
圖11
圖11是個性化體系的實時使用者DNA,采用滑窗方式抽取訓練樣本,視窗内的行為中前面n-1個提取特征,最後一個當作目标。
<b>個性化模型</b>
<b> </b>圖12
如圖12,浏覽和互動模式:自上而下的串行模型。
個性化模型的問題定義:個性化模型目标是,
。
如何考慮移動場景下浏覽和互動模式下産生的 bias ?串行浏覽模式下: 有效點選量化模型 (UCM);有效pv量化模型 (UBM)。
<b>有效曝光量化模型</b>
<b>(UBM</b><b>):</b>
<b>參考: A User Browsing Model to Predict Search Engine Click Data from Past</b>
Observations<b>, Georges E. Dupret</b><b>,Benjamin Piwowarski</b><b>, SIGIR</b><b>’08</b>
<b>有效點選量化模型</b>
<b>(UCM</b><b>):</b>
<b>參考: Modeling dwell time to predict click-level satisfaction</b><b>,Youngho Kim,</b>
Ahmed Hassan, Ryen W. White , and Imed Zitouni<b>, WSDM 2014</b>
<b> </b> 圖13
圖13為UBM&UCM的結果分析。
圖14
圖14為個性化模型圖。
<b>實時個性化</b>
圖15
如圖15,流量大,螢幕小,行為特點:碎片化,随時随地。
圖16
如圖16,網際網路機器學習需要“上線”,當把學到的模型投入産品,人的行為會受模型影響,資料分布也會發生變化。
圖17
圖17為移動搜尋的實時計算。
<b>個性化的E&E</b>
圖18
如圖18, a) 設計有效的個性化探索次元 。
b) explore & exploitation的控制比例。c) 根據業務目标制定合理reward和regret量化函數。
圖19
圖19列出來未來的挑戰,歡迎大家一起來讨論。
分享者介紹:
徐盈輝:日本豐橋技術科學大學計算機科學博士,2005年加入理光日本中央研究所,從事跨媒體檢索、圖像識别以及自然語言方面的研究。2005年度日本自然語言學會年度最佳論文獎,在國際學士會議發表多篇論文,日美中公開專利近20項;2012年加入阿裡,資深算法專家,主導并推動大淘寶平台的搜尋體系更新, 與搜尋技術團隊的工程師一起建立起集offline-nearline-online三位一體的電商平台個性化搜尋體系。
<a href="http://club.alibabatech.org/resources.htm">同論壇其他議題分享位址</a>
【近戰】系列文章,跟蹤tag标簽即可得到。