天天看點

美團商品知識圖譜的建構及應用

  商品知識圖譜作為新零售行業數字化的基石,提供了圍繞商品的精準結構化了解,對業務應用起到了至關重要的作用。相比于美團大腦中原有的圍繞商戶的圖譜而言,商品圖譜需應對更加分散、複雜、海量的資料和業務場景,且面臨着資訊來源品質低、資料次元多、依賴常識以及專業知識等挑戰。本文将圍繞零售商品知識圖譜,介紹美團在商品層級建設、屬性體系建設、圖譜建設人效提升等方向的探索,希望對大家有所幫助或啟發。

  背景

  美團大腦

  近年來,人工智能正在快速地改變人們的生活,背後其實有兩大技術驅動力:深度學習和知識圖譜。我們将深度學習歸納為隐性的模型,它通常是面向某一個具體任務,比如說下圍棋、識别貓、人臉識别、語音識别等等。通常而言,在很多任務上它能夠取得很優秀的結果,同時它也有一些局限性,比如說它需要海量的訓練資料,以及強大的計算能力,難以進行跨任務的遷移,并且不具有較好的可解釋性。在另一方面,知識圖譜作為顯式模型,同樣也是人工智能的一大技術驅動力,它能夠廣泛地适用于不同的任務。相比深度學習,知識圖譜中的知識可以沉澱,具有較強的可解釋性,與人類的思考更加貼近,為隐式的深度模型補充了人類的知識積累,和深度學習互為補充。是以,全球很多大型的網際網路公司都在知識圖譜領域積極進行布局。

  美團連接配接了數億使用者和數千萬商戶,背後也蘊含着豐富的日常生活相關知識。2018年,美團知識圖譜團隊開始建構美團大腦,着力于利用知識圖譜技術賦能業務,進一步改善使用者體驗。具體來說,美團大腦會對美團業務中涉及到的千萬級别商家、億級别的菜品/商品、數十億的使用者評論,以及背後百萬級别的場景進行深入的了解和結構化的知識模組化,建構人、店、商品、場景之間的知識關聯,進而形成生活服務領域大規模的知識圖譜。現階段,美團大腦已覆寫了數十億實體,數百億三元組,在餐飲、外賣、酒店、金融等場景中驗證了知識圖譜的有效性。

  在新零售領域的探索

  美團逐漸突破原有邊界,在生活服務領域探索新的業務,不僅局限于通過外賣、餐飲幫大家“吃得更好”,近年來也逐漸拓展到零售、出行等其他領域,幫大家“生活更好”。在零售領域中,美團先後落地了美團閃購、美團買菜、美團優選、團好貨等一系列相應的業務,逐漸實作“萬物到家”的願景。為了更好地支援美團的新零售業務,我們需要對背後的零售商品建立知識圖譜,積累結構化資料,深入對零售領域内商品、使用者、屬性、場景等的了解,以便能更好地為使用者提供零售商品領域内的服務。

  相比于圍繞商戶的餐飲、外賣、酒店的等領域,零售商品領域對于知識圖譜的建設和應用提出了更大的挑戰。一方面,商品數量更加龐大,覆寫的領域範圍也更加寬廣。另一方面,商品本身所具有的顯示資訊往往比較稀疏,很大程度上需要結合生活中的常識知識來進行推理,方可将隐藏在背後的數十維的屬性進行補齊,完成對商品完整的了解。在下圖的例子中,“樂事黃瓜味”這樣簡單的商品描述其實就對應着豐富的隐含資訊,隻有對這些知識進行了結構化提取和相應的知識推理後,才能夠更好的支援下遊搜尋、推薦等子產品的優化。

  商品圖譜建設的目标

  我們針對美團零售業務的特點,制定了多層級、多元度、跨業務的零售商品知識圖譜體系。

  多層級

  在不同業務的不同應用場景下,對于“商品”的定義會有所差别,需要對各個不同顆粒度的商品進行了解。是以,在我們的零售商品知識圖譜中,建立了五層的層級體系,具體包括:

  L1-商品SKU/SPU:對應業務中所售賣的商品顆粒度,是使用者交易的對象,往往為商戶下挂的商品,例如“望京家樂福所售賣的蒙牛低脂高鈣牛奶250ml盒裝”。這一層級也是作為商品圖譜的最底層的基石,将業務商品庫和圖譜知識進行打通關聯。

  L2-标準商品:描述商品本身客觀事實的顆粒度,例如“蒙牛低脂高鈣牛奶250ml盒裝”,無論通過什麼管道在什麼商戶購買,商品本身并沒有任何差別。商品條形碼則是在标準商品這層的客觀依據。在這一層級上,我們可以模組化圍繞标準商品的客觀知識,例如同一個标準商品都會具有同樣的品牌、口味、包裝等屬性。

  L3-抽象商品:進一步我們将标準商品向上抽象的商品系列,例如“蒙牛低脂高鈣牛奶”。在這一層級中,我們不再關注商品具體的包裝、規格等,将同系列的商品聚合為抽象商品,承載了使用者對于商品的主觀認知,包括使用者對商品系列的别名俗稱、品牌認知、主觀評價等。

  L4-主體品類:描述商品主體的本質品類,列如“雞蛋”、“奶油草莓”、“台式烤腸”等。這一層作為商品圖譜的背景類目體系,以客觀的方式對商品領域的品類進行模組化,承載了使用者對于商品的需求,例如各品牌各産地的雞蛋都能夠滿足使用者對于雞蛋這個品類的需求。

  L5-業務類目:相比于主體品類的背景類目體系,業務類目作為前台類目體系會依據業務目前的發展階段進行人工定義和調整,各個業務會根據目前業務階段的特點和需求建立對應的前台類目體系。

  多元度

  商品屬性視角:圍繞商品本身,我們需要有海量的屬性次元來對商品進行描述。商品屬性次元主要分為兩類:一類是通用的屬性次元,包括品牌、規格、包裝、産地等;另一類是品類特有的屬性次元,例如對于牛奶品類我們會關注脂肪含量(全脂/低脂/脫脂牛奶)、存儲方式(常溫奶、冷藏奶)等。商品屬性主要是刻畫了商品的客觀知識,往往會建立在标準商品這一層級上。

  使用者認知視角:除了客觀的商品屬性次元以外,使用者往往對于商品會有一系列的主觀認知,例如商品的别名俗稱(“小黑瓶”、“快樂水”)、對于商品的評價(“香甜可口”、“入口即化”、“成本效益高”)、商品的清單/榜單(“進口食品榜單”、“夏季消暑常備”)等次元。這些主觀認知往往會建立在抽象商品這一層級上。

  品類/類目視角:從品類/類目的視角來看,不同品類/類目也會有各自不同的關注點。在這一層級上,我們會模組化各個品類/類目下有哪些典型的品牌、使用者關注哪些典型屬性、不同品類的複購周期是多長時間等。

  跨業務

  美團大腦商品知識圖譜的目标是希望能夠對客觀世界中的商品知識進行模組化,而非局限于單個業務之中。在商品圖譜的五層體系中,标準商品、抽象商品、品類體系都是與業務解耦的,圍繞着客觀商品所建立的,包括圍繞這些層級建立的各次元資料也均是刻畫了商品領域的客觀知識。

  在應用于各個業務當中時,我們将客觀的圖譜知識向上關聯至業務前台類目,向下關聯至業務商品SPU/SKU,則可以完成各個業務資料的接入,實作各個業務資料和客觀知識之間的聯通,提供更加全面的跨業務的全景資料視角。利用這樣的資料,在使用者方面我們可以更加全面的模組化、分析使用者對于業務、品類的偏好,對于價格、品質等的敏感程度,在商品方面我們可以更準确的模組化各品類的複購周期、地域/季節/節日偏好等。

  商品圖譜建設的挑戰

  商品知識圖譜的建構的挑戰主要來源于以下三個方面:

  資訊來源品質低:商品本身所具有的資訊比較匮乏,往往以标題和圖檔為主。尤其在美團閃購這樣LBS的電商場景下,商戶需要上傳大量的商品資料,對于商品資訊的錄入存在很多資訊不完整的情況。在标題和圖檔之外,商品詳情雖然也蘊含着大量的知識資訊,但是其品質往往參差不齊,并且結構各異,從中進行知識挖掘難度極高。

  資料次元多:在商品領域有衆多的資料次元需要進行建設。以商品屬性部分為例,我們不僅需要建設通用屬性,諸如品牌、規格、包裝、口味等次元,同時還要覆寫各個品類/類目下特定關注的屬性次元,諸如脂肪含量、是否含糖、電池容量等,整體會涉及到上百維的屬性次元。是以,資料建設的效率問題也是一大挑戰。

  依賴常識/專業知識:人們在日常生活中因為有很豐富的常識知識積累,可以通過很簡短的描述擷取其背後隐藏的商品資訊,例如在看到“樂事黃瓜”這樣一個商品的時候知道其實是樂事黃瓜味的薯片、看到“唐僧肉”的時候知道其實這不是一種肉類而是一種零食。是以,我們也需要探索結合常識知識的語義了解方法。同時,在醫藥、個護等領域中,圖譜的建設需要依賴較強的專業知識,例如疾病和藥品之間的關系,并且此類關系對于準确度的要求極高,需要做到所有知識都準确無誤,是以也需要較好的專家和算法相結合的方式來進行高效的圖譜建構。

  商品圖譜建設

  在了解了圖譜建設的目标和挑戰後,接下來我們将介紹商品圖譜資料建設的具體方案。

  層級體系建設

  品類體系建設

  本質品類描述了商品本質所屬的最細類别,它聚合了一類商品,承載了使用者最終的消費需求,如“高鈣牛奶”、“牛肉幹”等。本質品類與類目也是有一定的差別,類目是若幹品類的集合,它是抽象後的品類概念,不能夠明确到具體的某類商品品類上,如“乳制品”、“水果”等。

  品類打标:對商品圖譜的建構來說,關鍵的一步便是建立起商品和品類之間的關聯,即對商品打上品類标簽。通過商品和品類之間的關聯,我們可以建立起商品庫中的商品與使用者需求之間的關聯,進而将具體的商品展示到使用者面前。下面簡單介紹下品類打标方法:

  品類詞表建構:品類打标首先需要建構一個初步的商品品類詞表。首先,我們通過對美團的各個電商業務的商品庫、搜尋日志、商戶标簽等資料源進行分詞、NER、新詞發現等操作,獲得初步的商品候選詞。然後,通過标注少量的樣本進行二分類模型的訓練(判斷一個詞是否是品類)。此外,我們通過結合主動學習的方法,從預測的結果中挑選出難以區分的樣本,進行再次标注,繼續疊代模型,直到模型收斂。

  品類打标:首先,我們通過對商品标題進行命名實體識别,并結合上一步中的品類詞表來擷取商品中的候選品類,如識别“蒙牛脫脂牛奶 500ml”中的“脫脂牛奶”、“牛奶”等。然後,在獲得了商品以及對應的品類之後,我們利用監督資料訓練品類打标的二分類模型,輸入商品的SPU_ID和候選品類TAG構成的Pair,即,對它進行是否比對的預測。具體的,我們一方面利用結合業務中豐富的半結構化語料建構圍繞标簽詞的統計特征,另一方面利用命名實體識别、基于BERT的語義比對等模型産出高階相關性特征,在此基礎上,我們将上述特征輸入到終判模型中進行模型訓練。​

​鄭州心理疾病醫院​​​​http://www.hyde8871.com/​​

  品類标簽後處理:在這一步中,我們對模型打上的品類進行後處理的一些政策,如基于圖檔相關性、結合商品标題命名實體識别結果等的品類清洗政策。

  通過上述的三個步驟,我們便可以建立起商品與品類之間的聯系。

  品類體系:品類體系由品類和品類間關系構成。常見的品類關系包括同義詞和上下位等。在建構品類體系的過程中,常用的以下幾種方法來進行關系的補全。我們主要使用下面的一些方法:

繼續閱讀