天天看點

為電商而生的知識圖譜,如何感應使用者需求?

小叽導讀:本文從需求分析和體系化建構的角度出發,闡述在電商這一特殊領域的知識圖譜建構過程中,形成的一整套概念體系,還有在此過程中,通過算法、工程、産品、營運和外包團隊投入大量精力,通過不斷磨合逐漸完善的平台架構和稽核流程。

作者:玉昆、喜阕、遠尚、弘朗、子尹、久越

1、背景

電商認知圖譜從17年6月啟動以來,通過不斷從實踐到體系化的摸索,逐漸形成了一套較為完善的電商資料認知體系。

在目前集團不斷拓展業務邊界的背景下,資料互聯的需求越來越強烈,因為這是跨領域的搜尋發現、導購和互動的基礎,也是真正能讓使用者“逛起來”要具備的基礎條件。但在此之前,我們需要對目前的問題做一個分析。

1.1 問題

更複雜的資料應用場景不僅是傳統的電商,現在我們面臨的是新零售、多語言、線上線下結合的複雜購物場景,所用到的資料也往往超出了以往的文本範圍,這些資料往往都具有一些特點:

非結構化網際網路的大量資料都是分散在各個來源而且基本是非結構化文本方式來表示,目前的類目體系從商品管理角度出發,做了長期而大量的工作,仍然隻是覆寫了大量資料的冰山一角,這對于認知真正的使用者需求當然是遠遠不夠的。

充滿噪聲:不同于傳統的文本分析,目前集團内的資料大部分是query、title、評論、攻略等,這些資料由于使用者習慣和商家訴求,會存在非常不同于普通文本的文法結構,也會由于利益原因存在大量噪聲和髒資料,這也為真正發現使用者需求并結構化帶來了極大的困難。

多模态、多源:随着集團的業務擴充,目前的搜尋推薦不僅容納了商品中的文本資訊、大量視訊、圖檔也作為内容被使用、如何融合各個來源的資料、如何在關聯多模态資料也是資料建設的一個難點。

資料分散,無法互聯:從目前的商品體系建設來說,各個部門由于業務快速發展,往往需要維護自己的一套cpv體系,這也是後期做商品管理和搜尋的非常關鍵的一環,但是由于應用場景的行業屬性不一樣,比如閑魚的"包配飾"由于業務場景高頻會是一個需要再細分的類目,但在淘系由于交易搜尋低頻,"鞋包配飾"僅僅是二手閑置下的一個小類目,這造成各個部門需要費力地維護在自己的cpv體系上的查詢和搜尋,每次都要重建自己的類目體系,重新支援存儲查詢,重新關聯商品,重新做類目預測等。 如何建設一個比較通用的面向應用的概念體系,支援根據業務需求提供查詢服務,已經迫在眉睫。

缺少資料的深度認知:資料的深度認知不是認知商品,而是認知使用者需求之間的關聯,如何能在使用者搜尋"葉酸”的時候認知到她有備孕需求,如何能在使用者大量點選燒烤調料和工具的時候認知到他需要進行野外燒烤,是目前全集團都缺少的。

1.2 需求分析

通過如下的背景介紹,我們可以明确到,為了建構一個全局統一的知識表示和查詢架構,我們需要如下的關鍵工作。

為電商而生的知識圖譜,如何感應使用者需求?

複雜場景的資料結構化:在複雜的場景下,我們首先要做的是資料清洗,通過頻次過濾、規則和統計分析把髒資料去掉,然後通過短語挖掘,資訊抽取等方法把高可用的資料抓取出來,進行資料的結構化和層次劃分。

分散資料的統一表示架構:對于管理分散資料,我們首先是需要定義一個全局的schema表示和存儲方法,然後基于schema進行概念資料的融合,屬性的挖掘和發現,在資料關聯上有可能要通過各種表示學習的方法來完成。

資料深度認知:深度認知包含兩個方面,一個是資料本身的認知,一個是資料關聯的認知,通過行為和商品本身的資訊我們可以認知到使用者購買商品的意圖,通過外部資料的輸入和摘要我們會得到常識類和商品體系之外的使用者需求的關聯。

1.3 電商認知圖譜

為了解決上面的問題,我們提出了電商認知圖譜(E-commerce ConceptNet), 目标是建立電商領域的知識體系,通過深度認知使用者需求,實作電商場景下關聯人-貨-場的關聯,賦能業務方和行業。

1.3.1 子產品劃分

從整體劃分上來說,認知圖譜分為四塊比較重要的工作,通過将不同類型的concept(user,scene,virtual category和item)建構為一個異構圖,來實作使用者-場景-商品的關聯:

為電商而生的知識圖譜,如何感應使用者需求?

使用者圖譜建構 使用者圖譜除了通用的使用者畫像資訊(年齡、性别、購買力),也會有“老人”,“小孩”等人群資料,和使用者的品類屬性偏好資料。

1.3.2 場景圖譜建構

場景可以看做是對使用者需求的概念化,從現有的query和title中識别出使用者需求,泛化為一個通用的場景(scene concept),并建立諸如"戶外燒烤","度假穿搭"之類的概念是場景圖譜的主要工作。通過不斷細化的場景需求,我們将跨類目和品類,代表了一類使用者需求的概念抽象為購物場景(sc)。

為電商而生的知識圖譜,如何感應使用者需求?

挖掘了概念相當于我們得到了圖上的節點,在概念挖掘之上,我們又着手建立概念與類目和品類,概念和概念之間的關系,相當于建立了圖上的有向邊,并計算邊的強度,具體流程如下:

為電商而生的知識圖譜,如何感應使用者需求?

截止目前,我們已經産出10w+概念和10倍的品類類目關聯。

1.3.3 品類細化

品類細化的來源是由于目前的類目體系會過粗或者過細,從建構上包括兩個層面:

品類聚合:比如"連衣裙“從認知層面上來說都是一個品類,但是由于分行業管理的原因會同時存在"女裝”,"男裝"和"童裝"等不同類目中,這時候就會存在于兩個一級類目下,是以就需要有一個偏常識的體系來維護對真正"連衣裙"的認知。

品類拆分:品類細化是源于我們發現現有的類目體系不足以聚合一類使用者需求,比如有一個“西藏旅遊”的場景,在“紗巾”類目下我們需要更多的細節,這時候就需要一個叫做“防風紗巾"的虛拟類目。 這個過程同樣是存在entity/concept extraction和relation classification的,目前我們主要針對類目和品類品類上下位建立關系。

為電商而生的知識圖譜,如何感應使用者需求?

截止目前,我們已經有融合了cpv類目樹,品類類目關聯,和外網資料的 pair對68.9w+對。

1.3.4 商品圖譜建構

短語挖掘:商品圖譜端我們需要的是做更多的商品屬性認知,我們知道,完善的cpv體系的前提是phrase的認知,針對此我們建立了一個bootstrap架構下的cpv挖掘閉環,目标是能夠長期有效積累cpv資料,擴大query和商品的認知(這也是商品打标的資料來源之一)。

為電商而生的知識圖譜,如何感應使用者需求?

舉例來說:

為電商而生的知識圖譜,如何感應使用者需求?

截止至目前,我們已經完成了pv top70的類目稽核,增加了12W+的cpv對,term能夠全量被識别的query占比已經從30%提升到60%(由于目前采用中粒度分詞進行挖掘,前期分析70%已經是極限,後續會在增加phrase mining流程後持續擴大挖掘覆寫),目前資料已經作為類目預測,智能互動的基礎資料每日産出。

商品打标:商品打标是我們得以将知識和商品建立關聯的關鍵技術,上述三點産生的資料最後都會通過打标建立與item的聯系,在商品打标完成後我們就可以實作從query到商品的整個語義認知閉環。

為電商而生的知識圖譜,如何感應使用者需求?

預計到三月底我們可以實作第一版的商品打标。

2、知識體系

在知識建構的過程中,我們漸漸發現需要一套全局統一的schema表示體系,于是我們調研了wordnet和conceptnet的體系建構曆程,逐漸形成了自己的一套概念表示體系,也就是現有的認知圖譜的核心(E-commerce ConceptNet),它的目标是從語義層面去了解電商領域的使用者需求并将其概念化(conceptulization),映射到一個語義本體(ontology),通過詞彙層面的關系逐漸把本體之間的關系形式化(specific),通過本體之間的層級去表示概念之間的層級,通過概念之間的關系去抽象實體類别和關系。

為電商而生的知識圖譜,如何感應使用者需求?

從資料層面上來看,我們要描述一個事物(entity),首先需要把它定義為一種類别(instance-of-class)的執行個體,這種類别通常又可以通過一個概念(concept)來表示,不同的概念會有自己不同的屬性(proeprty),一類概念的具有的屬性集合可以稱為概念的schema,有同一類schema的概念一般會屬于不同的領域(domain),領域内有自己的語義本體(ontoloty),通過本體的層次(比如“英國"-is-part-of-”英國"),我們可以形式化概念的層級和表示。 那麼由細到粗的,我們定義了一套電商概念體系的表示方法,通過不斷細化ontology和concept,以及他們之間的關系,來關聯起使用者和商品,甚至外部的實體。

3、技術架構

3.1 平台子產品

為電商而生的知識圖譜,如何感應使用者需求?

總體來說,我們是以一個資料服務中台支撐起上面的圖引擎,再通過阡陌資料管理平台,和圖靈業務對接平台來實作知識的生産和使用的。

3.2 子產品細節

阡陌:資料标注和展示

阡陌作為電商知識圖譜的基本平台,目前內建了所有知識标注和稽核流程,并且提供了資料查詢和可視化,後期算法的概念挖掘服務和商品打标服務也會通過阡陌對外提供。

資料稽核在不斷試錯過程中我們已經建立了一套比較完善的從初審到終審的流程,具體見阡陌稽核工具。

為電商而生的知識圖譜,如何感應使用者需求?

可視化:除了稽核平台,阡陌還提供了更加具體的資料可視化形式,通過良好的互動友善查詢知識阡陌可視化

3.3 圖靈:業務全選和投放

由于目前我們的知識大部分以卡片形式提供,圖靈提供了一整套經由雲主題透出的業務服務工具:

概念選擇 :

為電商而生的知識圖譜,如何感應使用者需求?

使用者可以通過全選自己的主題進行分管道投放

3.4 圖引擎:資料存儲和查詢

從存儲媒體來說,我們使用mysql進行靈活标注,圖資料庫進行全量查詢,odps做持久化資料版本管理。

為電商而生的知識圖譜,如何感應使用者需求?

在資料錄入到igraph和biggraph之前會被拆分為點表和邊表導入,線上通過gremlin進行查詢。

為電商而生的知識圖譜,如何感應使用者需求?

在圖資料庫上層我們封裝了一個圖引擎子產品,提供不同trigger的場景和商品多路多跳召回功能。目前提供user,item_list和query召回,已經在喵小秘使用,并且和搜尋發現進行聯調中,可以使用查詢接口進行查詢和測試。

3.5 技術落地

雲主題(認知圖譜) 目前在雲主題已經通過知識卡片的形式上線近1w個場景,比較首猜商品來說,點選和發散性較商品均有大幅提升,現在正在做資料發散性的探索。

為電商而生的知識圖譜,如何感應使用者需求?

錦囊(全量)/底紋(bts)

為電商而生的知識圖譜,如何感應使用者需求?

搜尋

為電商而生的知識圖譜,如何感應使用者需求?

穹頂

為電商而生的知識圖譜,如何感應使用者需求?

四、後期規劃

目前認知圖譜剛剛發展近一年,還有很多工作需要細化,後續的工作重點會放在:

關系挖掘和本體建構

通過文本增強圖譜和外部資料的關聯

常識類推理規則的挖掘

圖推理的符号邏輯表示

原文釋出時間為:2018-09-05

本文作者:搜尋事業部

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。

繼續閱讀