天天看點

【近戰2】移動電商搜尋個性化技術

【編者按】好的技術實戰分享從來不因為時間的流失而褪色。2011年開始營運的阿裡技術沙龍共積累35期,近100位深度實戰教育訓練資源(PPT+視訊)讓很多朋友大呼過瘾。接棒阿裡技術沙龍,雲栖社群特别挑選最具人氣的12場深度實戰分享組成【近戰】的第一個系列。其中包含新浪微網誌、淘寶搜尋、美團、美麗說、淘寶推薦、小米、支付寶、阿裡雲、淘寶無線在内,涵蓋模組化、個性化推薦、排序學習、系統優化、資料監控、流量優化、架構探索等多方面一線經驗總結。

以下為【近戰】第2篇,移動電商搜尋個性化技術。

移動端搜尋流量保持高速增長,移動搜尋與桌面搜尋互為補充,使得消費者的網購行為得以進一步普及化和深入化。本次演講主要介紹淘寶搜尋技術如何思考移動端 搜尋帶來的技術挑戰,如何來結合移動端裝置私有化,使用時間碎片化,輸入模式的多樣化,互動方式的便捷化等特點來優化移動端搜尋,及個性化在移動搜尋中的應用。

圖1

圖1是移動視角的基本結構圖。

                           圖2

圖2是移動搜尋産品形态。

<b>個性化體系結構</b>

個性化搜尋面臨的挑戰有很多:

大資料,稀疏,長尾,噪音:

淘寶上海量的商品,針對個體而言,發生行為的商品有限, 稀疏度在百萬分之一,甚至更低。

使用者行為模式的挖掘和利用:

網購行為的複雜性,如何準确的描述使用者的興趣和特色,包括長短期興趣等? People change over time。

冷啟動:

新使用者,新商品。

多樣性與精确性的兩難困境:

Interestingness v. relevance ,Need Serendipity

使用者界面與使用者體驗:

個性化體驗的可解釋性。

系統的挑戰性

評估的挑戰性

個性化搜尋誤區:

千人千面并非意味着,去追求單純個體的個性化體驗,個性化搜尋是立足于提升整體使用者的個性化體驗;

Personalization  != customization;

勿忘行為模組化的基本假設——hypothesis:

接受商品 à 接受他得所有屬性;

過度個性化——搜尋場景的個性化:“to personalize or not to personalize “,Explore &amp; Exploitation ;

主觀性 vs. 客觀性——“data driven”,購物行為所表現的個性化特點 != 使用者的實體個性化特征。

     圖3

圖3展示了個性化技術的魅力。

  圖4

圖4是鳥瞰個性化體系。

   圖5

圖5為個性化體系框圖。Offline:離線模型訓練資料收集,過濾, 聚合,特征ID化,利用batch-learning産出nearline環節,online環節所需要的模型。Near-line:

建構于流式計算體系的實時日志解析,行為特征抽取,聚合,實時使用者profile預測,實時人群-商品累積行為特征計算,離散化處理;更新線上排序計算依賴的實時字段,UPS中實時userprofile字段,引擎中的商品正排字段;建構基于mini-batch的線上學習模型,增強系統的适應新資料的能力和explore能力; 實時反作弊。Online:各個排序次元模型的線上預測;多個排序因素的線上融合;EE 政策。

個性化體系的移動元素:

查詢意圖——時間,地點,逛/搜;pull or push。

  使用者肖像——移動端特色資料;跨屏行為模組化,實時肖像特征。

  P(滿意|query,使用者,商品)。

  實時個性化。

E&amp;E。

<b>Query/User </b><b>意圖識别</b>

<b>  </b>圖6和圖7是Query/User 意圖識别,

  圖6

 圖7

圖8

圖8為Query 的隐含個性化需求。

<b>個性化資料</b>

<b>  </b>

<b> </b>

圖9

如圖9,私有化/移動化/社交化,跨屏行為、實時使用者肖像。

 圖10

如圖10,使用者個性化體系的實時使用者DNA。

 圖11

圖11是個性化體系的實時使用者DNA,采用滑窗方式抽取訓練樣本,視窗内的行為中前面n-1個提取特征,最後一個當作目标。

<b>個性化模型</b>

<b>  </b>圖12

如圖12,浏覽和互動模式:自上而下的串行模型。

個性化模型的問題定義:個性化模型目标是,

如何考慮移動場景下浏覽和互動模式下産生的 bias ?串行浏覽模式下: 有效點選量化模型 (UCM);有效pv量化模型 (UBM)。

<b>有效曝光量化模型</b>

<b>(UBM</b><b>):</b>

<b>參考: A User Browsing Model to Predict Search Engine Click Data from Past</b>

Observations<b>, Georges E. Dupret</b><b>,Benjamin Piwowarski</b><b>, SIGIR</b><b>’08</b>

<b>有效點選量化模型</b>

<b>(UCM</b><b>):</b>

<b>參考: Modeling dwell time to predict click-level satisfaction</b><b>,Youngho Kim,</b>

Ahmed Hassan, Ryen W. White , and Imed Zitouni<b>, WSDM 2014</b>

<b> </b> 圖13

圖13為UBM&amp;UCM的結果分析。

 圖14

圖14為個性化模型圖。

<b>實時個性化</b>

 圖15

如圖15,流量大,螢幕小,行為特點:碎片化,随時随地。

 圖16

如圖16,網際網路機器學習需要“上線”,當把學到的模型投入産品,人的行為會受模型影響,資料分布也會發生變化。

 圖17

圖17為移動搜尋的實時計算。

<b>個性化的E&amp;E</b>

圖18

如圖18,    a)  設計有效的個性化探索次元 。 

b)   explore &amp; exploitation的控制比例。c) 根據業務目标制定合理reward和regret量化函數。

  圖19

圖19列出來未來的挑戰,歡迎大家一起來讨論。

 分享者介紹:

徐盈輝:日本豐橋技術科學大學計算機科學博士,2005年加入理光日本中央研究所,從事跨媒體檢索、圖像識别以及自然語言方面的研究。2005年度日本自然語言學會年度最佳論文獎,在國際學士會議發表多篇論文,日美中公開專利近20項;2012年加入阿裡,資深算法專家,主導并推動大淘寶平台的搜尋體系更新, 與搜尋技術團隊的工程師一起建立起集offline-nearline-online三位一體的電商平台個性化搜尋體系。

<a href="http://club.alibabatech.org/resources.htm">同論壇其他議題分享位址</a>

【近戰】系列文章,跟蹤tag标簽即可得到。 

繼續閱讀