天天看點

電商行業智能搜尋技術原理全解析

阿裡雲開放搜尋-電商行業智能搜尋解決方案: https://www.aliyun.com/page-source//data-intelligence/activity/opensearch

一、搜尋的業務邏輯

“搜尋Query→召回→排序→搜尋結果”

  當使用者在搜尋框輸入一個Query時,系統通過對其語義的了解,召回相關文檔或商品,在通過算法排序,按客戶實際的搜尋意圖進行前後排序,最終解決其搜尋需求,實作業務轉化。

其中【召回】與【排序】對搜尋引導的業務目标最為重要。

二、自然語言處理技術(NLP)在搜尋上的應用

1. 概念介紹

   想實作搜尋引擎效果的優化,就一定要對自然語言處理技術有一定的了解,因為使用者輸入一個Query,從學術角度解讀,自然語言智能研究實作了人與計算機之間用語言進行有效通信,它是融合語言學、心理學、計算機科學、數學、統計學于一體的科學。

  自然語言處理被學者譽為”人工智能皇冠上的明珠“,研究覆寫了感覺智能、認知智能、創造智能這樣的學科,是實作完整人工智能的必要技術。

2. 阿裡雲達摩院NLP搜尋分析路徑

電商行業智能搜尋技術原理全解析

三、電商搜尋的特點

1. 關鍵詞堆砌

例如:楊幂同款夏季連衣裙包郵。

2. 詞序對語義影響不大

例如:楊幂同款女夏季連衣裙包郵;女夏季連衣裙包郵楊幂同款。

3. 類目預測問題

例如:當使用者查詢“蘋果”時,可能查詢的是水果,也可能是手機品牌。

4.查詢召回文檔相關性差

核心詞識别不準确,分詞不準确

5. 搜尋引導的業務轉化比重較大

據統計,綜合類電商搜尋引導轉化占比40%以上,垂直類電商搜尋引導轉化占比60%以上。

6. 穩定性要求較高,支援彈性擴容

活動、大促系統QPS可能是平時的百倍千倍,需要平滑的擴縮容,保障系統的穩定。

四、電商搜尋優化核心功能

1. 分詞(劃重點!)

1.1分詞效果的優化直接影響召回數量,減少無結果率,提高搜尋召回品質

例如:

“火鍋九塊九包郵”

  • 效果差的分詞:“火、鍋、九、塊、九、包、郵”;“火鍋、九、塊、九、包郵”
  • 開放搜尋的分詞:“火鍋、九塊九、包郵”

“925銀耳飾“

  • 效果差的分詞:“925、銀耳、銀、耳飾”
  • 開放搜尋的分詞:“925、銀、耳飾”

1.2不同的分詞方式直接影響着參與召回的關鍵詞,進而影響召回的準确性

  目前很多開源自建系統難以實作很好的分詞效果,主要原因是訓練語料的資料量有限,不足以形成可以不斷打磨深耕的行業資料。尤其電商行業商品種類豐富,中文字、詞表達的意義多樣,多音字、同義詞又衆多的情況下,靠自身算法工程師和開發團隊很難實作快速的解決優化,這是一個不斷積累訓練的漫長過程。

2. 命名實體識别

2.1電商搜尋-實體識别含義

  對電商Query和标題進行實體詞打辨別别,其中包含品牌、品類、品類修飾、型号、款式等類别;

2.2開放搜尋實體識别優勢

  • 基于淘寶全量資料和知識庫深入優化電商行業實體識别能力,解決品牌更新快歧義大,品類存在修飾關系,品牌品類搭配關系等問題;

2.3開放搜尋實體識别作用

2.3.1作用于query改寫:

   開放搜尋查詢分析可以改寫兩個query,第一個query更精準,第二個query減少了參與召回的term,旨在當更精确的召回結果數不足時,用第二個query進行擴大召回。query改寫主要根據實體的重要性,召回時保留重要性高的實體詞,對重要性低的部分不影響召回,隻影響算法排序。

實作方式:

   實體重要性目前分為高、中、低三檔。其中“品牌、品類”是在高檔,也就是最重要的;其次“風格、款式、顔色、季節、人群、地點…”處于中檔;最後“尺寸、修飾詞、影響服務、系列、機關…”處于低檔,可以丢棄不參與召回。

電商行業智能搜尋技術原理全解析

2.3.2與類目預測一起使用

  query中不同的實體對類目的影響是不一樣的,是以,當原query沒有類目預測的結果時,會根據一定的規則,去掉和類目意圖無關或者相關度低的詞後,進行類目預測,這對長尾query的類目預測會有很大的幫助.

示例:

“楊幂(人名)同款(字尾)春季(時間季節)修身(款式元素)連衣裙(品類)”丢詞後的query按照優先級排序分别為:

春季修身連衣裙

春季連衣裙

修身連衣裙

連衣裙

系統會按照上述順序依次查詢類目預測的結果

3. 類目預測

3.1舉例說明:

  • 使用者搜尋“蘋果”可能是想要水果的蘋果,也可能是蘋果手機;
  • 使用者搜尋“華為”,召回結果按銷量排序,可能銷量最高的“華為手表”、“華為配件”排在前面,實際的搜尋意圖”華為手機“卻排在後面。

 3.2開放搜尋類目預測能力  

    類目預測是開放搜尋裡基于物品/内容的類目資訊改善搜尋效果的算法功能。根據使用者的查詢詞來預測使用者想要查詢哪個類目的結果,結合排序表達式,可以使得更符合搜尋意圖的結果排序更靠前。

基本原理:把曆史上搜過的query收集起來,結合query查詢之後的點選行為資料,與類目下的物品資訊聯系起來,使用這些資料來訓練模型,由模型來刻畫query與類目之間的資料規律。

   不同使用者搜尋意圖不同,有些行為意圖搜尋“配件”,有些意圖是搜尋“手機”,那根據使用者的行為資料就可以通過類目進行判斷,進而在排序效果上實作個性化展示;

電商行業智能搜尋技術原理全解析
電商行業智能搜尋技術原理全解析

4. 排序算法

4.1電商排序常見問題

  • 查詢結果排序不理想:導緻點選率較低,跳出率較高,直接影響業務轉化;
  • 資料缺乏時效性:難以平衡優質商品和新釋出商品之間的權衡關系;
  • 商家刷排名:部分商家找到排序漏洞,通過關鍵詞堆砌,獲得靠前位置,使用者體驗不好;
  • 人力資源緊張:需要專業算法工程師2-3名,很難找到合适的人才。

4.2開放搜尋電商排序能力

   在應用結構模闆和索引結構模闆基礎上,提供電商常用基礎排序、業務排序表達式,無需額外配置即可滿足大部分電商行業排序效果需求,使用者還可以通過cava腳本定制排序。

5. 人工幹預bad case

5.1常見的bad case

  • “iPhone11”剛上市時,使用者搜尋“蘋果/iphone”,最新款産品肯定要排在前面,在沒有正常排序算法的時候,就需要類目預測人工幹預;
  • “噴泡”是一款籃球鞋的别稱,并非主流叫法,全稱是“Air Jordan AirFoamposite系列”,這時就需要通過平時營運積累的專業詞彙可視化同步到開放搜尋做查詢語義了解功能的更新檔,通過靈活幹預得以解決;
  • 跨境電商有時Query涉及“日文、韓文、泰文”等外語,當我們的分詞詞典不能很好的分詞優化時,也可以通過分詞幹預功能解決;
  • 使用者搜尋Query“香奈兒氣墊”,預設的實體識别,将“香奈兒”歸類為“普通詞”;“氣墊”歸類為“材質”,需要人工幹預實體識别,把“香奈兒”幹預為品牌。

5.2開放搜尋人工幹預功能

  • 内置幹預詞典,可在其基礎上添加自定義幹預詞典;
  • 支援查詢分析幹預詞典(停用詞、拼寫糾錯、同義詞、實體識别、詞權重、類目預測);

6. 搜尋引導功能

6.1搜尋引導功能業務價值

6.1.1熱搜底紋

  • 熱門query是使用者興趣的風向标,通過分析熱門query把握使用者的興趣走向,對制定營運政策提供決策依據;
  • 給使用者推薦一些優質query,提升業務目标;
  • 使用者推薦熱門query,既提升使用者體驗,又給部分次熱門query增加曝光機會;
  • 通過分析使用者的行為,結合使用者的興趣來推薦query,想使用者所想提高轉化機會;
電商行業智能搜尋技術原理全解析

6.1.2下拉提示

  • 提高輸入效率,幫助使用者盡快找到想要的内容,同時減少使用者的查詢次數,減小服務端的壓力;
  • 推薦更優質query;
電商行業智能搜尋技術原理全解析

6.2開放搜尋搜尋引導優勢

   内置熱搜、底紋、下拉提示多樣搜尋引導算法模型,無需開發系統每天自動訓練模型,對使用者搜尋意圖起到重要的引導作用,大大降低後續查詢意圖了解、相關性、排序、營運幹預等環節的調優難度,對提升整體業務目标可以起到非常好的鋪墊作用。

五、開放搜尋電商行業模闆

1.搜尋架構

  開放搜尋(OpenSearch)首創電商行業搜尋模闆能力,幫助企業快速建構更高水準的搜尋服務,帶動業務指數級增長。

電商行業智能搜尋技術原理全解析

2.一鍵配置

内置電商行業搜尋能力,配置簡單新手無門檻

電商行業智能搜尋技術原理全解析

3.電商行業模闆優勢

  • 行業最佳實踐,減少試錯成本

将搭建電商行業搜尋的最佳實踐産品化落地,使用者不必各方向探索,隻需按模闆接入即可擁有更優服務;

  • 内置更高品質算法模型,節省訓練成本

使用者從0開始優化搜尋,免去大量的資料标注與模型訓練工作,直接内置阿裡集團淘系搜尋算法能力,節省數十人/月的算法工作;

  • 支援個性化搜尋與服務能力

通過引擎側的多路召回能力,實作搜尋結果、下拉提示、底紋詞等重要服務千人千面,提升搜尋轉化;

  • 架構開放,支援開發者自定義模型實時回流

支援使用者自行訓練的NLP模型導入進入開放搜尋,靈活滿足業務開發者需求;

  • 召回引擎性能充分領先

阿裡巴巴自研Ha3引擎,處理海量資料、高并發、海量使用者請求,性能數倍優于開源方案;

  • 高時效的行業疊代能力

根據電商行變化,不斷疊代更新原有能力,提供更高時效性的服務保障;

4.電商行業增強版技術核心名額優化

4.1開源搜尋與電商行業增強版效果對比

電商行業智能搜尋技術原理全解析

4.2通用版與電商行業增強版能力對比

電商行業智能搜尋技術原理全解析

4.3離線資料處理

 單個叢集實時資料同步Tps百萬級;

獲得專家指導:

https://survey.aliyun.com/apps/zhiliao/uzhnOt_g9

電商行業模闆配置流程:

https://help.aliyun.com/document_detail/208651.html

如果您對搜尋與推薦相關技術感興趣,歡迎加入釘釘群内交流

電商行業智能搜尋技術原理全解析

繼續閱讀