天天看點

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

WWW大會(The International World Wide Web Conference),是一年一度關于網際網路未來發展方向的首要國際學術會議,旨在聚集世界各地學術界和工業界的精英,一起進行關于網絡演進、相關技術标準化等前沿話題的分享與讨論。

WWW 2018将于4月在法國裡昂舉辦,其中阿裡巴巴一篇介紹搜尋直通車新一代智能廣告檢索模型的論文《Beyond Keywords and Relevance: A Personalized Ad Retrieval Framework in E-Commerce Sponsored Search》以其獨特的原創性被大會收錄,評委一緻認為該方法是對傳統搜尋廣告檢索架構的重新定義。這篇論文将在會議上進行口頭報告。

搜尋直通車是阿裡巴巴為淘寶和天貓賣家量身定制,按點選付費的效果營銷工具,其承載的淘系搜尋廣告業務是阿裡巴巴電商生态體系下的最重要業務之一,在創造整個集團主力營收的同時,也承擔着重要的生态調節功能。本次阿裡WWW 2018論文,是搜尋直通車首次公開其自研的新一代智能檢索模型,價值巨大。

阿裡搜尋直通車廣告業務有着巨大的體量和影響力,其技術工作有着非常高的挑戰性。面對淘系搜尋廣告業務場景中真實存在的各種痛點和挑戰,阿裡技術一線的同學們不斷地進行技術探索,通過一次次的技術突破和創新,解決了大量的業務難題。本次阿裡媽媽在WWW 2018公開的新一代智能檢索模型工作,就是搜尋直通車算法團隊的同學一次從實踐出發,将技術創新和業務訴求相結合的範例。

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖1:“新一代”搜尋廣告智能檢索架構

在論文中,阿裡的技術同學突破了以“關鍵詞”和“相關性”為核心的傳統搜尋廣告檢索架構,提出了新一代的搜尋廣告智能檢索模型。新一代搜尋廣告智能檢索模型引入使用者行為異構圖挖掘、機器學習等相關技術,通過模型學習的方式智能建構索引,解決了傳統搜尋廣告檢索系統不能解決的種種痛點,在搜尋直通車業務線上取得了出色的效果,給廣告商、使用者和平台帶來了三赢。

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖2:搜尋廣告系統由三方參與:廣告商、使用者和系統平台

在搜尋廣告系統中,每一次搜尋廣告的展示、點選和轉化都需要三個參與方(廣告商、使用者和平台)的密切合作。平台是使用者搜尋請求和廣告商投放的廣告之間的橋梁,進行着流量比對、廣告展現等工作。其中,廣告檢索子產品負責了解使用者的搜尋意圖,快速準确地從海量廣告中檢索出一個小規模的高品質廣告候選集。廣告檢索子產品需要兼顧系統的效果與效率,是以在算法工作中存在着巨大的技術挑戰。

在傳統的搜尋廣告系統中,廣告商必須為自己的廣告選擇競價關鍵詞。平台進行廣告檢索時會受到競價關鍵詞的限制。如果廣告商沒有事先為廣告購買相應的關鍵詞,那麼即使使用者搜尋請求與廣告緊密相關,平台也不會檢索回這些廣告。但是,受限于市場資訊的缺失和投放管理的巨大成本,廣告商有時并不能及時準确地為自己的廣告選擇出最合适的關鍵詞。在這種情況下,廣告檢索算法不能實作最優的流量比對,給廣告商、使用者和平台三方均帶來了損失。

此外,傳統的搜尋廣告檢索模型隻關注于搜尋請求與廣告之間的相關性;這往往和平台的目标(RPM、CTR、GMV等)并不完全一緻。如何在考慮相關性的同時,兼顧平台目标和使用者體驗,是廣告檢索模型需要解決的巨大難點。

近年來,越來越多的個性化資訊被引入電商搜尋廣告系統,如使用者在平台上的浏覽、點選、交易等行為。一方面,這些個性化資訊能夠幫助廣告檢索模型更好地了解使用者的搜尋意圖。但另一方面,個性化資訊也給廣告檢索帶了新的挑戰:面對從各種複雜豐富的個性化信号通道檢索回的廣告,檢索模型需要能夠高效、準确地對其按照統一标準快速排序。這個問題,在目前已知的工作中,均沒有得到有效地解決。

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖3:使用者行為異構圖圖示例。圖中包含了三種節點:使用者搜尋信号、廣告檢索鍵和廣告。使用者搜尋信号和廣告檢索鍵之間的邊表示改寫,廣告檢索鍵和廣告之間的邊表示廣告海選。

面對上述傳統搜尋廣告檢索系統中存在的各種難題和挑戰,阿裡媽媽搜尋直通車算法團隊的同學提出了一種創新的搜尋廣告智能檢索系統。新的智能檢索系統首先使用使用者在平台上的曆史行為建構出一張龐大複雜的使用者行為異構圖。異構圖中節點分别表示“使用者搜尋信号”、“廣告檢索鍵”和“廣告”,邊分别表示“使用者搜尋意圖信号改寫”關系和“廣告召回”關系。接着,檢索系統面向平台RPM、CTR等名額,學習異構圖中邊的權重,挖掘出重要的改寫關系和廣告召回關系。

這樣,通過對異構圖的深入挖掘,檢索系統同時進行了“使用者搜尋意圖信号改寫”和“廣告召回”兩個檢索子任務的統一聯合學習。最後,檢索系統根據模型的邊挖掘結果,自動建構相應的“改寫索引”和“廣告召回索引”。通過兩個模型智能建構的索引,檢索系統将使用者行為異構圖和模型挖掘結果存儲下來,實作了對線上搜尋請求的高效檢索。由于新的智能檢索模型不再強制要求廣告商購買關鍵詞,是以新的檢索系統使用OCPC政策,在保證廣告商ROI的基礎上,決定廣告的點選收費。

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖4:使用者行為異構圖龐大複雜,包含上百億的節點和上千億的邊

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖5:在考慮相關性的同時,模型智能建構的線上龐大索引兼顧了平台收益和使用者體驗

阿裡媽媽搜尋直通車業務有着巨大的體量和規模龐大的使用者資料,是以新的智能廣告檢索模型在實際落地過程中,也面臨着各種技術挑戰。例如,在新的廣告檢索系統中,使用者行為異構圖龐大複雜,包含了上百億的節點和上萬億的邊,使得模型訓練非常困難。為了兼顧檢索系統的的效果和性能,阿裡技術同學提出了多種異構圖初始化方法,在盡量保留重要關系的前提下,實作了對異構圖的剪枝,給模型的訓練提供了良好的起點。

又例如,在搜尋廣告檢索階段,為了提高檢索效率,模型無法擷取足夠多的資訊或者使用過于複雜的特征。是以,在新的檢索模型中,阿裡技術同學有針對性地設計了兩種“粒度”不同特征:稀疏特征和連續特征。前者是一種細粒度的特征,保證了模型效果;後者則是一種粗粒度特征,用于提高模型的覆寫能力和穩定性。

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖5:離線模型效果

阿裡媽媽首次公開新一代自研智能檢索模型 | WWW 2018論文解讀

圖6:出色的線上效果

新的智能搜尋廣告檢索模型,在搜尋直通車平台上取得了出色的效果,給廣告商、使用者和平台帶來了三赢:新的檢索模型通過OCPC的方式自動為廣告出價,在保證了廣告商的ROI前提下,把廣告商從繁重的買詞任務中解放了出來;通過引入豐富的個性化信号,新的檢索模型能夠更好地了解使用者的搜尋意圖,達成更準确的流量比對,提升了使用者體驗;新的檢索模型不再單純以相關性為目标,而是綜合考慮平台的目标和使用者的體驗,提升了平台收益,也維護了平台的生态環境。

阿裡媽媽在WWW 2018論文中公布的新一代搜尋廣告智能檢索模型,不僅僅是國際一流的學術成果,更是搜尋直通車算法團隊的一線技術同學,以技術為驅動,服務廣大淘寶、天貓使用者和賣家的真實實踐。

原文釋出時間為:2018-01-12

本文作者:闫肅,林偉,吳天舒,肖道銳,吳波,劉凱鵬

繼續閱讀