天天看點

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

案例背景

國内某頭部母嬰垂直類電商平台,緻力于提供多元的産品和服務,滿足中國年輕家庭知識擷取、交流交友、記錄成長和消費購物的四個核心需求,營收主要來源于商城部分,我們之前提到,大部分垂直類電商搜尋轉化占整體業務轉化的6成以上,是以該母嬰平台想從根本提高營收額,就必須滿足寶媽寶爸們育兒商品搜尋的需求,幫助他們快速準确的找到想要的東西。

搜尋問題回報:

使用者:沒有精準定位搜尋需求,查詢召回文檔相關性較差

問題分析

通過電商行業搜尋特征來分析

1. 關鍵詞堆砌;

例如:“幫寶适男童大碼拉拉褲包郵”

關鍵詞:幫寶适、男童、大碼、拉拉褲、包郵;一個query包含好幾個搜尋關鍵詞,這些關鍵詞的重要性也是分:高、中、低的。

2. 詞序對語義的影響不大;

** 例如:“L碼男童紙尿褲夏季透氣”**           

“L碼”為尺寸,“男童”為人群,“紙尿褲”為品類,“夏季”時間季節,“透氣”為産品特性;L碼為query的首要詞序,但很明顯它卻并不是重要的關鍵詞,隻有定位搜尋關鍵詞,去除不重要的詞,才會直接影響使用者的搜尋體驗效果和搜尋品質

阿裡雲開放搜尋解決方案:

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

1. 電商分詞器:分詞是影響搜尋效果的最基礎的子產品,阿裡雲開放搜尋按行業屬性提供多種場景分詞器,通用行業分詞器、電商行業分詞器、内容行業分詞器、自定義分詞器等。

電商行業分詞器是內建了淘寶搜尋同款的分詞器,它的訓練語料是來自淘寶搜尋多年積累的百萬級有标注的電商行業資料,是以相比開源IK分詞器效果較好,可以高效、高品質的解決目前遇到的分詞難題。例如:

• 文檔字段内容為“大寶SOD蜜”,則搜尋“大寶”、“sod”、“sod蜜”、“SOD蜜”、“蜜”等情況下均可以召回。

• 文檔字段内容為“菊花茶”,則搜尋“菊花茶”、“菊花”、“茶”、“花茶”等情況下可以召回

2. 拼寫糾錯:提供的拼寫檢查功能,對查詢詞中的錯誤進行糾正,給出正确的查詢詞。并根據糾錯的可信度高低,決定目前查詢是否用糾錯後的詞進行查詢。

例如:使用者搜尋了“邦寶适拉拉褲”,那麼預設糾錯并傳回“幫寶适拉拉褲”的結果

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

3. 詞權重: 該功能主要分析了查詢中每一個詞在文本中的重要程度,并将其量化成權重,權重較低的詞可能不會參與召回。這樣可以避免當使用者輸入的查詢詞中包含一些權重低的詞時,仍然按使用者輸入的查詢詞限制召回,導緻命中結果過少

例如:使用者搜尋“幫寶适男童拉拉褲大碼包郵”,詞權重後會去查詢:“幫寶适 拉拉褲、拉拉褲 大碼、拉拉褲”擴大召回量

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

4. 實體識别:在查詢分析中,實體識别主要的作用于query處理和類目預測查詢中,用來識别文本中有特定意義的實體,電商行業中主要識别品牌、品類、款式、風格等具有電商行業特色的實體類型,可以影響Query改寫,提高召回率和準确性,提升類目預測的召回率,丢棄部分對類目影響不大的詞;

4.1 影響query 改寫,提高召回率和準确性

召回時保留重要性高的實體詞,對重要性低的部分不影響召回,隻影響算法排序。實體的重要性目前分為3檔,分别是高、中、低

Query改寫的規則如下:

(1)重要性高的實體,其優先級完全一樣,肯定會參與召回;

(2)重要性低的實體,始終不參與召回;

(3)重要性中的實體,其優先級按其在查詢分析中配置的順序依次遞減,改寫規則:

  1. 當query中有重要性高的實體時,重要性中的實體在第一個query中參與召回,第二個query不參與召回;
  2. 當query中沒有重要性高的實體時,重要性中的實體在第一個query中參與召回,在第二個query中,優先級最高的那個實體類型的詞會參與召回,其他的都不參與召回。

    (4)當query中沒有重要性高和中的實體時,query改寫不參照實體識别的結果;

(5)當query隻有重要性高或者隻有重要性高和低的實體時,改寫後隻會得到一個query。

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

4.2 提升類目預測召回率

查詢類目預測時,依據實體對類目預測影響不同,丢棄部分對類目預測影響不大的詞

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

例如:對于query 艾莎(人名)同款(字尾)夏季(時間季節)蕾絲(款式元素)連衣裙(品類),丢詞後的query按照優先級排序分别為:

(1)夏季蕾絲連衣裙

(2)夏季連衣裙

(3)蕾絲連衣裙

(4)連衣裙

系統會按照上述順序依次查詢類目預測的結果。

4.3 建立實體識别幹預詞典

為了友善使用者使用,系統提供預設的實體重要性配置。使用者也可以根據實際業務情況,自主的調整配置。這塊調整會影響query的改寫規則。

例如:業務特殊專有名詞,需要進行實體識别幹預。

使用者搜尋“小熊 (Bear)嬰兒指甲刀護理套裝",其中“小熊”“bear”實體識别結果為:普通詞,但實際業務上“小熊(bear)”是一家母嬰品牌,這時可以使用幹預詞典,設定為“品牌”,進而影響召回排序的效果。

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

實踐後的搜尋性能對比:

1. 搜尋“荷蘭美素佳兒嬰幼兒奶粉“分詞效果

• Before:“荷蘭 美 素 佳 兒 嬰幼兒 嬰 幼 兒 奶粉 奶 粉”

• After: “荷蘭(地點地域) 美素佳兒(品牌) 嬰幼兒(人群) 奶粉(品類)”

2. 搜尋“夏季新款涼鞋男童”

• Before:3個召回結果,

• After:22個召回結果

**利用查詢分析--實體識别功能:定位搜尋關鍵詞

實體識别:“夏季”時間季節,“男童”人群;“新款"新品;;“涼鞋”品類;

Query1:  “涼鞋”“夏季”“男童”;
    Query2:“涼鞋”**----
           

如果你想與更多開發者們進行交流、了解最前沿的搜尋與推薦技術,可以釘釘掃碼加入社群~

電商搜尋如何“想使用者所想,提高搜尋結果品質”?案例背景搜尋問題回報:問題分析阿裡雲開放搜尋解決方案:實踐後的搜尋性能對比:

【開放搜尋】新使用者活動:阿裡雲實名認證使用者享1個月免費試用~

https://www.aliyun.com/product/opensearch

繼續閱讀