天天看點

Shopee 多語言商品知識圖譜技術建構方法和應用

作者:閃念基因

導讀 Shopee 是一家服務于全球多個市場的電商平台,緻力于為消費者提供更加便捷,安全,快速良好的消費體驗。Shopee 深耕多種不同的語言和市場,在這種國際化的服務平台上,需要處理多語言和混合語言的複雜語料。我個人的工作主要聚焦于電商平台商品有關的圖譜以及圖譜算法的建構,也希望通過本次分享能給大家帶來一些收獲。其中就包含了:商品知識圖譜在多元市場的建構經驗,商品知識圖譜最新的進展以及新的應用,以及如何建構技術模型和技術架構來實作滿足電商複雜應用的訴求。

全文目錄:

1. 知識模組化

2. 知識擷取

3. 知識融合

4. 知識應用

5. 知識圖譜展望

分享嘉賓|張亦弛 Shopee Listing Team Leader

編輯整理|張振飛 神州新橋

出品社群|DataFun

01

知識模組化

首先分享一下知識模組化相關的内容。

1. Knowledge Ontology

Shopee 多語言商品知識圖譜技術建構方法和應用

從上圖中可以看到,消費者使用 Shopee 電商 App,可以通過分類選項,找到具體分類下的商品,進行浏覽和購買。分類體系是商品圖譜中用來管理商品資訊的非常重要的本體層。商品圖譜的本體層,主要包含商品的分類和每個分類下具體的屬性,通過這樣的分類和屬性的組合,來表示整個商品圖譜中每一個商品實體的具體資訊。

電商分類是一個樹狀的結構,從最粗的粒度到最細的粒度,不同的分類中有不同的深度。以移動電子類為例,在其下面又可以細分出可穿戴類的電子産品,在可穿戴類中又包括了移動手表等等。對于細分品類,我們會梳理出大家關心的屬性項和屬性值。以 T-shirt 為例,消費者和平台可能會比較關注 T-shirt 的品牌、材質等資訊,這裡的品牌、材質是屬性項(Attribute Type)。我們會梳理出品牌、材質這些屬性項對應的具體屬性值(Attribute Value),比如材質裡面包含純棉 Cotten、真絲 Silk 等。

通過類目(category),屬性項(Attribute Type),屬性值(Attribute Value)這樣一個組合體,就可以建構出商品知識圖譜的本體層。用這樣的本體來表達所有具體商品實體的資訊。

2. Knowledge Ontology - Ontology and Entity

Shopee 多語言商品知識圖譜技術建構方法和應用

在這個圖中,上面是本體,下面是每個商品的實體。當然在商品實體裡,也會有不同的粒度。比如我們日常在買東西的時候看到的一個頁面,其實是一個 item,這是商品次元。當我們選擇了一個具體的型号去購買,就是選擇了一個 SKU Model,這是最細粒度的商品資訊。這樣一個本體體系和商品實體的組合,就可以實作大規模商品資訊的結構化管理和表示。

3. Knowledge Ontology - Uplift All in One

Shopee 多語言商品知識圖譜技術建構方法和應用

随着經濟的發展,電商為了滿足迅速變化的市場需求也在不斷地演變,電商平台的本體層也不是一成不變的。

Shopee 建設初期,在各個語言市場有着自己的本體分類和設計。後來我們發現,統一的一套更加有利于多語言語料和多語言市場之間商品的互通,和商品資訊在不同語言之間高效的轉化,是以我們把不同語言之間的本體彙總成了 Global-Category-Tree 這樣全球統一的體系。就可以在同樣的分類體系,同樣的屬性體系下面,用不同版本的語言去管理所有市場的商品實體資訊。

4. Knowledge Ontology - Uplift Continuously

Shopee 多語言商品知識圖譜技術建構方法和應用

在圖譜本體方面,我們遇到的核心痛點是,本體如何與時俱進的去疊代變更。随着市場的發展,會不斷湧現出新的品類、新的項和值。但是新品、新項和新值對于存量的語料來說是比較少的,那麼如何能及時的捕捉到它們呢?這個技術的思想就要從 New Phrase Mining 開始。普通 NER 模型在 OOV 問題的表現上,并不能很好地滿足我們的應用訴求,我們的核心思想是引入 MINER 模型,去緩解和改善 OOV 的問題。

主要思想是:以 SpanNER 為基礎模型,引入 information bottleneck 層,借助互資訊的形式改造目标函數,幫助模型去優化對上下文的捕捉能力。進而提升模型的泛化能力。

通過這樣不斷去挖掘新的品類詞、屬性項、屬性值的技術,實作了 Span level accuracy 提升 4.5%+,Value level recall 提升 7.4%+,效果還是比較可觀的。基于這樣一套不斷挖掘的思路,就可以幫助智能推薦本體層的調整建議,結合線上效果評估,基于新的語料去不斷進行挖掘的疊代和循環。

02

知識擷取

1. Challenges

Shopee 多語言商品知識圖譜技術建構方法和應用

在日常的知識擷取工作中,我們也遇到了比較多的挑戰,比如在處理商品語料的時候,會遇到各種各樣的語言,甚至是各種複雜語言的混合體。同時還要處理細粒度的分類,分類體系可以達到上千類。在這樣的細粒度分類之下,不同的分類有不同的語料特征,分類結合屬性項次元能夠達到 10K+ 的不同組合。再結合每個項下面不同的屬性值,整體能夠達到 260K+ 量級的規模。在這樣的規模下,整體服務的精度還要維持在 90% 之上。

面對這樣的挑戰,我們需要更好的技術思路,基于有限的開發人員和研發時間,能夠快速響應線上服務疊代的訴求,保證線上服務的效果,是以我們需要有一套 Scalable Technique Structure 來響應我們的應用訴求。

2. Item Category Classification

Shopee 多語言商品知識圖譜技術建構方法和應用

首先介紹下商品分類相關的 task 和解決方案。商品分類問題的核心目标就是了解商品的分類資訊,并且提升和保障其準确性。同時還需要把分類的服務提供給商家商品釋出的系統,保證系統的效率及穩定性。具體的問題可以拆分為幾個 task:

① 如何對新發的商品做精準的推薦;

② 存量的商品牽引到新的分類體系下;

③ 及時捕捉和修正存量商品資訊中的錯誤。

Shopee 多語言商品知識圖譜技術建構方法和應用

随着電商平台的發展,商品資訊的表達也在不斷變化來吸引使用者的關注,這對于模型而言就是一個挑戰,不僅要建構一個精準的模型,還要不斷地疊代更新保持它的效果。

Shopee 多語言商品知識圖譜技術建構方法和應用

為了應對資訊分類,需要設計一套模型的架構。這樣的模型架構我們有好多種,比如說第一種就是把每個商品做一個粗粒度的分類,可能分到最粗的幾十大類,在每個大類下有更細粒度的分類,這樣每個子模型需要去分類的類别量是比較小的,分類效果也會比較精細。第二種是更加 end-to-end 的架構,我們直接把商品資訊輸入,去找到它使用的最細粒度的分類。

這兩種架構各有其優缺點。第一種的缺點就是需要管理的模型是很多的,以一個語言市場為例,需要管理的模型就有幾十個。再結合十多個語言市場,管理的模型量就達到上百量級。第二種模型更加端到端,但是在一些細分品類上的效果就可能各有參差,并且在細粒度品類的優化上也會同時影響其他品類的效果。這兩種體系我們會根據實際效果做更科學的選擇。

無論哪種體系,底層都依賴了文本類的分類方法和圖文結合多模态的方法。常見的文本類模型有 Fasttext 和 BERT 等等。多模态部分我們在對比各種模型後,選擇基于 Align-before-fuse 做商品類圖文資訊的綜合識别,最終找到适合的分類。Align-before-fuse 模型的核心思想是先通過 Image-Text Contrastive Learning,Image-Text Matching 和 Masked Language Modelling 做預訓練,再通過 Momentum Distillation 減輕髒資料的影響,進而實作比較好的分類效果。

Shopee 多語言商品知識圖譜技術建構方法和應用

随着模型的開發上線和應用,我們在各個市場的主要品類下面的精度可以維持在 85%~90%+。同時也能支援不同的釋出體系的高頻率調用。

Shopee 多語言商品知識圖譜技術建構方法和應用

第二個任務就是對類目體系做變更之後如何快速的響應,把商品轉化到新的品類上。這裡的業務背景是随着市場的發展,很多新品的湧現以及品類的壯大。如果一直用比較粗的分類方式,是不利于下遊電商系統分發和客戶消費體驗的,需要進行細化的拆分。對技術就比較有挑戰,因為新的分類是不能直接拿到天然的訓練語料的,是以工作的重點就是如何能夠智能化地建構訓練語料,更新并且響應新的分類體系的要求。

Shopee 多語言商品知識圖譜技術建構方法和應用

上圖展示了資料挖掘的流程和思路,核心思想是基于 Keywords-Mining 和 OOD-Detection 的方法,去挖掘有變化的或者新興品類的關鍵詞,基于關鍵詞去做自動化樣本的建構。比如挖掘出新興品類的關鍵詞之後,存量的商品或者市場上的商品能夠被這樣的關鍵詞命中,且具備較高的執行度,那麼就可以添加到訓練語料當中,成為新品類的訓練樣本。對于低執行度或者有多種可能的資料語料,再進行簡單的人工核驗,就可以快速的建構訓練樣本,幫助模型高效地疊代。

Shopee 多語言商品知識圖譜技術建構方法和應用

以上圖的案例為例,原始的 Global Category Tree 有兩個分類,在拓展到 20+ 的細粒度的分類之後,無論文本模型還是多模态模型在多個不同的市場都可以達到 90%+ 的精度,可以高效地響應分類調整問題。

Shopee 多語言商品知識圖譜技術建構方法和應用

第三個任務是如何對分類錯誤的商品去捕捉和修正。這裡的業務背景是錯放的商品資訊無論是對消費者還是平台都帶來了各種各樣的負面影響。比如增加額外的物流成本,影響商家的銷量,增加對商品管控的難度。技術上的難點是,這類錯放商品,對于模型本來也是較為困難的案例,分類模型對這些資料較難精準地捕捉。

Shopee 多語言商品知識圖譜技術建構方法和應用

為了解決這個問題,我們建構了識别錯放商品的模型 Detection,再結合識别出來的錯放的商品做修正 Correction 的工作,找到一個更适合的分類。在 Detection 這個模型中,核心思想是基于 CrossEncoder with multi-task learning,對 Shopee 語料庫進行預訓練,然後做分類。通過對商品資訊和分類資訊做拼接,識别出在各個分類層上是否屬于錯誤的分類。對于錯放的商品,通過召回和排序的方式,找到最接近或者執行度最高的分類。核心思想是基于 Sentence-BERT using Siamese Network Structures 和 Triplet Contrastive Learning 優選出可信度最高的一個或多個分類,并進行修正。

Shopee 多語言商品知識圖譜技術建構方法和應用

這裡面需要去處理或标注的存疑語料的規模是非常大的,那麼如何通過隻辨別少量的資料就實作模型的提升呢?在這個問題之上,我們進行了資料語料優選的工作,可以了解為通過主動學習的方式,去學習語料的置信度,在經過三到四種模型,通過投票和優選的方法,學到哪些資料預料是異常值。在采樣的時候對 centorid data、outlier data、random data 都進行采樣,通過這樣的方式縮小語料的标注量,進而實作模型的提升。

Shopee 多語言商品知識圖譜技術建構方法和應用

結合以上這些工作,識别商品是否類目錯放的服務能夠達到 98% 以上的精度。搜尋查詢相關的 badcase 在重點品類上減少了 50% 左右。

3. Item Attribute Recognition

Shopee 多語言商品知識圖譜技術建構方法和應用

接下來介紹商品屬性新增的識别。從上圖可以看出,輸入商品的資訊之後,屬性識别基于四種不同的思想:第一種是基于 String-match Model;第二種是基于 Rule-based Model,比如 Warranty Duration: 1 year,這種是符合語料的特征和規則;第三種是基于 NER model 去做屬性的識别;第四種是基于Image model,視覺和多模态相關的模型。

基于這四種不同的識别思路,從商品資訊中擷取到多種可能的屬性項和值。對于這些識别到的屬性項和值,去做一層屬性值整合,結合各種資訊優選出置信度較高的項和值。比如學習來源的置信度等等。在學習出了置信度較高的屬性值之後,還需要結合屬性值之間的關系,補充出商品資訊之外推理出的商品知識。

Shopee 多語言商品知識圖譜技術建構方法和應用

開放集屬性值通常會有很多不同的表達,NER 模型比較适合去捕捉商品資訊表達中已有的值。是以我們把商品資訊屬性的識别做了從 NER 模型到 MRC 模型的轉換。通過 MRC 的解決思路,我們希望能夠使用 Wordpiece tokenizer 去緩解 OOV 的問題,并且通過 LaBse PLM 去解決 multi-lingual 的一些問題,通過 MRC+CRF 完成文本屬性和商品屬性的識别抽取任務。

Shopee 多語言商品知識圖譜技術建構方法和應用

識别和抽取出了大量的屬性值之後,會發現它的表達各種各樣,會存在拼寫錯誤或同義詞的現象。就像三星這個案例,都是藍色,但是會有 “blue” 和 “biru” 不同的表達,我們需要對這些詞做歸一,這樣才能更好地響應下遊的應用,并把所有的商品資訊轉化到标準的資訊層,友善下遊系統更高效地了解。

Shopee 多語言商品知識圖譜技術建構方法和應用

接下來我們還需要對這些資訊做一層歧義的了解,因為我們發現從商品中抽出的資訊會有沖突。比如商品标題資訊裡面顔色是 “red”,在詳情資訊裡顔色是 “yellow”,“silver” 既可以辨別顔色又可以表示材質,“red” 有可能是紅色也有可能是紅米品牌資訊。受到 promat approach 的啟發,我們把這一問題轉化成了一個 generation task。基于 T5 的模型,上圖是整體的流程圖,重點是将資料轉換成 Template 的格式,做 Encoder 和 Decoder,最終輸出想要識别項對應的值。通過對比使用發現 T5 的表現還是不錯的,相較于其他的模型有比較大的提升。

Shopee 多語言商品知識圖譜技術建構方法和應用

當識别出商品的資訊之後,還可以利用這些資訊做一些推理。比如保修類型是不保修,那保修時間這一項自然就是 None 了。這種推理可以通過挖掘知識圖譜的關聯屬性去實作。

Shopee 多語言商品知識圖譜技術建構方法和應用

以此類推,不僅可以通過關聯屬性去補全商品資訊,商品圖譜包含商品和商品間的關系,商品和屬性之間的關系,這些關系之間也可以去做一系列的資訊的補全,我們也在此基礎之上建構了圖譜這樣一個體系。

03

知識融合

接下來介紹知識融合的部分,分為本體融合,實體融合和資訊融合。

1. Ontology Fusion

Shopee 多語言商品知識圖譜技術建構方法和應用

本體層融合可以了解為商品本體,比如 Shopee 的商品分類體系和市場上其它分類體系,它們之間可以做映射和關聯,包含類目的映射、屬性項的映射、屬性值的映射。核心思想是有很多原子化的技術子產品做支撐,比如在類目的映射關聯上,可以基于商品的分類資訊彙總到分類體系的映射關系。屬性項可以結合相近詞,同義詞等等,在分類下面再去建構項和值的關聯映射關系,這樣的關聯關系也會結合實際的條件做精度和條件上的限制。

2. Entity Fusion

Shopee 多語言商品知識圖譜技術建構方法和應用

重點介紹下實體層的融合,在電商層面可以了解為商品之間關系的識别和了解。比如同款商品、相似商品或相關商品。

Shopee 多語言商品知識圖譜技術建構方法和應用

在不同關系的基礎算法上,有一些經典的思路,常見的是基于圖文相似度的比對來找到它們的關系。更進一步的是基于商品圖譜做商品資訊屬性項更細粒度的比對,可以更加業務可解釋地去拆解出來商品之間比對關系的具體要求。比如我們想要知道兩個商品是否滿足品牌一緻、材質一緻、顔色一緻,還是想要更細粒度或者更粗粒度,這樣就更友善業務去定制化使用。

Shopee 多語言商品知識圖譜技術建構方法和應用

在基于圖文相似的比對上,主要是建構了基于召回排序的架構和方法。結合商品資訊做 Embedding 建構,基于圖文的 Embedding 去做檢索召回和精排,來實作基于相似度的同款關系建構。

Shopee 多語言商品知識圖譜技術建構方法和應用

在這個基礎之上,還希望建構更加精準的基于圖譜的屬性次元的同款關系,那麼就誕生了一個概念:Standard Product Unit(spu) ,就是标準産品節點。從上圖可以看出,在每個産品的細粒度分類之下,可以定義商品關系最關注的那些項和值。比如圖上的 Apple iPhone 13 Pro 代表了一系列的産品節點,無論任何商家在任何地點售賣的 Apple iPhone 13 Pro 都是同一款産品。當然,這個産品節點還刻有更細粒度。當我們沉澱出這樣的産品節點之後,就可以連接配接所有符合這個産品定義的商品,來實作一個産品粒度的商品聚合。

Shopee 多語言商品知識圖譜技術建構方法和應用

這樣的優勢是更加可解釋,友善使用者和平台内部營運的使用,以及定制不同粒度的聚合體。

Shopee 多語言商品知識圖譜技術建構方法和應用

整體的架構如上圖所示,涉及到定義的細化以及基于定義的分類,屬性的抽取,在基于定義的要求結合抽取出來的屬性做商品次元的聚合。我們把所有的子產品連接配接起來,就可以實作 SPU 資料資産的生産。最終不僅生産出所有的産品節點而且去連接配接好所有的商品資訊,并且還可以把商品的資訊彙到産品次元去實作最終資訊層的知識融合。

Shopee 多語言商品知識圖譜技術建構方法和應用

是以我們就建構出了如上圖所示的知識圖譜,會有各種各樣的産品節點以及對應的分類資訊、屬性資訊,以及各個商品實體的連接配接。

04

知識應用

接下來再簡單介紹下我們一系列的知識應用。

Shopee 多語言商品知識圖譜技術建構方法和應用

知識應用的服務比較廣泛,比如幫助營運了解市場,做商品篩選,商品品質校驗;幫助商家在釋出的時候做類目的智能化識别,價格推薦,物流資訊補全;幫助消費者推薦高成本效益的活動會場,以及對搜尋推薦做各種智能化支撐。

05

知識圖譜展望

最後介紹下對未來知識圖譜工作的展望。

Shopee 多語言商品知識圖譜技術建構方法和應用

從之前的圖譜的圖可以看出來,我們的商品圖譜不隻是可以連接配接到商品和商品屬性分類等等這樣的資訊,還可以進一步拓展和使用者、商家以及各個市場平台更高次元的資訊的關聯,并且實作資訊之間精準的互通和推理,基于這樣的補全去做更廣泛的業務應用。

Shopee 多語言商品知識圖譜技術建構方法和應用

在目前的 AIGC 時代,大量新技術的誕生沖擊着大家的思想,不斷有各種各樣的大規模語言模型誕生。随着 chatGPT 大模型的突破,AI 的發展已經到達了一定的階段。chatGPT 的成功證明了,我們如果有足夠量的資料和足夠大的模型是能夠實作較好的知識推理的。在這樣的背景之下,做圖譜相關工作的人和我們的工作又面臨着怎樣的發展機遇和挑戰呢?

對于大模型而言,它能給圖譜提供的幫助效果并不是特别好,并不能達到端到端的需求。特别是在垂直領域,各個公司都有自己的運轉模式和業務标準。如上圖所示,我們做一個商品細粒度識别,在這個例子中,準确率大概達到 50%,還沒有達到 end-to-end 的商業應用的訴求,還需要去做細粒度的子模型的建構。并且大模型的計算在現有的算力消耗上也并不是高成本效益的選擇,垂直領域的模型依然存在優勢。但是大模型可以輔助我們對垂直領域模型的優化,比如對于訓練資料的增強、樣本生成,能夠幫助垂直領域模型快速提升。

在大模型的潮流下,我們也需要思考知識圖譜能起到什麼樣的作用。其實目前的大模型仍然存在着一些問題,比如大模型可能會提供非實時但看似合理的預測,以及在推理能力上對較為複雜的邏輯推理和數學推理還存在進步的空間。知識圖譜其實是在推理能力上具備一些優勢的,是以未來我們可以去探索,是否可以将知識圖譜的結構與現有的方法論做結合,并且與大模型的訓練方法做結合。

從目前的應用上來看,New Bing 已經在用搜尋引擎去補充和增強 chatGPT-4 的效果了,在一定程度上也減少了知識型的錯誤。舉個例子,對于獨特的業務知識,我們是不是可以借助零微調的技術将知識圖譜的知識表達作為 prompt 去提示 GPT 大模型,來生成更符合業務場景的答案。當然這隻是一些淺層的思路和應用,我相信随着對于模型了解的不斷深入,還會有更好的結合方法。

分享嘉賓

INTRODUCTION

張亦弛

Shopee

Listing Team Leader

張亦弛,現任電商平台 Shopee Marketplace Intelligence Listing 商品算法負責人,服務全球十餘個市場的商品智能化識别,工作研究方向為電商領域知識圖譜建構、自然語言處理和多模态技術在電商業務中的應用等。畢業于倫敦大學,學術論文曾發表在 BMVC / EMNLP / WSDM / CVPR 等國内外會議和期刊,出版專著一部。

來源:微信公衆号:DataFunTalk

出處:https://mp.weixin.qq.com/s/AmBRkWNjRoz7Bq22HFJEzQ

繼續閱讀