天天看點

百煉智能姚從磊:在網際網路公開資訊中「大海撈針」,為一億機構人物建立「全息檔案」

「全國各行業的銷售大概有 8000 萬人,他們每天都面臨着同樣的問題:我的客戶在哪裡,我如何能接觸到我的客戶。而百煉的思路是,利用網際網路公開資訊來解決這一問題,隻不過需要非常深度的提取與推理。」百煉智能的 CTO 姚從磊這樣介紹他們的産品所解決的問題。

成立半年以來,這家主要成員來自北大和清華的人工智能公司已經拿到了總額超過千萬元的天使投資,而他們的産品,是一個在前人工智能時代,乃至前計算機時代就必不可少的存在:檔案。

八月,機器之心來到了百煉智能,不同于大多數紮堆在五道口與中關村的人工智能創業公司,他們将位址定在了鬧中取靜的北京朝陽東二環附近,「這裡離我們的客戶更近」,CTO 姚從磊說。我們聊了聊百煉提供的「基于公開資訊的動态全息檔案」裡包含哪些資訊,如何生成,又是如何在場景裡獲得應用的。

機器之心:資料顯示百煉智能希望提供「基于公開資訊的動态全息檔案」,能否詳細介紹一下這個概念?

百煉希望完成的「基于公開資訊的動态全息檔案」,是利用公開網際網路資訊建立的以機構和人物為核心的知識圖譜。

全息檔案是常見于商業調查中的一個詞,通常指用多元度的資訊對機構和個人進行的刻畫,「檔案」展現了資訊的權威性和信度,「全息」則強調了全時間線與多元度覆寫。「基于公開資訊」是指所有的資訊都是能夠通過爬蟲,從 公開網際網路中擷取的資訊,「動态」意味着檔案具有時效性,能夠跟随公開資訊的變化而進行及時的變更。

機器之心:全息檔案中都包含哪些次元的資訊?

對于公司來說,首先是公司的簡介,第二是公司的産品與業務線,第三是其核心團隊。核心團隊會不限于工商資訊中的相關人員,而是全公司具有決策權的人員,以組織結構圖的形式展現出來。

除了上述這些基本資訊之外,爬取的字段并不是一開始就确定好的、一成不變的。一開始,我們根據自己的産品需求去定義,然而随着 B 端客戶逐漸增加,待爬取的字段也随着爬取的過程逐漸擴充,并逐漸達到穩定。

對于人物來說,首先是人物介紹,圖檔,時間經曆(timeline),他/她在公開場合發表過的觀點,個人動态,以及公開的同鄉、同學、同僚、同參加商業活動等類型的社會關系。

機器之心:如何建立全息檔案?

建立全息檔案的技術架構包括 Web 索引層、知識圖譜層和應用層三部分。

百煉智能姚從磊:在網際網路公開資訊中「大海撈針」,為一億機構人物建立「全息檔案」

Web 索引層是我們逐漸做出的一個「搜尋引擎」,每天不斷爬取網際網路中的網頁,留下可能與我們感興趣的機構——我們稱為種子機構——相關的部分,經過爬取、解析、清洗、建立索引等步驟入庫,向上方的知識圖譜層提供接口。

知識圖譜層首先會進行命名實體提取與關系分類。

命名實體提取需要從索引中擷取與種子機構相關的每一個網頁。「種子機構」清單相當于一張在爬取過程中不斷變長的名單。從最大型的央企、上市公司以及各領域中的知名公司、各大知名院校開始,在和它們相關的每一個網頁中,知識圖譜層都會提取出新的命名實體,包括機構、人物,也包括時間、地點。其中尚未出現在「種子機構」名單中的機構,會以疊代循環的方式加入到名單中。而在一個預定長度的視窗内同時出現的任意兩個命名實體,則會對其關系進行分類。

由于網絡公開資訊是雜亂且可信度存疑的,是以在提取和分類後,系統會對提取出來的命名實體、關系和屬性資訊進行清洗,過濾掉錯誤的資訊,解決沖突,建構知識圖譜。根據一些事先确定好的規則,系統也會在知識圖譜上進行關系的推理和擴充。例如,兩個人是同一個學校、同一個院系畢業,則二者被定義為具有「同系關系」。再比如,兩個機構的核心團隊成員關系很密切,則視為兩個機構存在密切關系。

機器之心:能否舉例說明實體提取的輸入輸出分别是什麼?

百煉智能姚從磊:在網際網路公開資訊中「大海撈針」,為一億機構人物建立「全息檔案」

例如,在上文的新聞網頁文本内容中,包含了「鍊家集團」、「融創中國」、「新希望」等機構,以及「左晖」、「孫宏斌」、「張明貴」等人物。我們希望得到的序列标注輸出是,所有非機構和人物的詞,比如「公開」、「資料」等,對應的标簽都是 UNK,而所有機構和人物中的詞,比如「融創」、「中國」等,對應的标簽都是機構和人物的相應類型。

機器之心:能否具體說明選用的實體提取與關系分類的技術解決方案?

實體提取/關系分類的解決方案有兩種。一種是經典的管道式(pipeline),首先用序列标注的思路來解決命名實體提取問題,再用分類的思路來解決實體關系提取問題。另一種是将實體提取和關系提取統一表述為序列标注問題,用序列标注的解決思路(LSTM+CNN)來統一處理兩個問題。

為了確定知識圖譜的高品質和可産品化,我們使用了優化後的管道式的處理邏輯:即,在實體提取之後,利用基于第三方資料源訓練的分類器剔除錯誤的實體,以保證在進入到關系提取之前,實體準确率在 95% 以上。

我們的實體提取與分類架構如下圖所示:

百煉智能姚從磊:在網際網路公開資訊中「大海撈針」,為一億機構人物建立「全息檔案」

架構的輸入是經過基礎分詞的詞序列,以及其中一些詞對應的 HTML 标簽資訊,包括超連結、字型資訊和顔色資訊等。每一個詞經過詞嵌入(word embedding)擴充為詞向量後,與 HTML 标簽資訊一起組成了完整代表每一個詞的向量。詞向量經過 BiLSTM 層,利用 BiLSTM 的雙向序列模組化能力,捕捉一個詞與前後詞序列的相關關系,将每一個詞擴充為包含了上下文資訊的高維向量。最後,把高維向量輸入直鍊 CRF 層(Linear-chain CRF)層,輸出每一個詞的對應标簽。

詞嵌入向量和 HTML 标簽向量中擁有豐富的決策所需的資訊,而通過整合 BiLSTM 全面刻畫上下文時序資訊的能力和 CRF 的序列标注模組化能力,上述架構的表達能力是非常高的。

機器之心:在實體提取和關系分類的基礎上繼續進行推理的目的是?

我們将推理機制稱為「時空碰撞」。比如兩個公司的負責人,并沒有代表各自公司在公開場合有交集,但是他們分别于 1999 年和 2000 年加入清華電子系的一個特定實驗室,那麼我們會認為他們之間有比較強的關聯關系。

通過時空碰撞,我們可以為上一步基于事實的知識圖譜建立許多新的邊,讓關系圖譜更加細緻與密集。

推理工作的難點在于分布式索引:當知識圖譜規模變大後,理論上每一個新增的機構和人物都需要和現有圖譜之中的所有已知機構和人物進行關系計算和推理,但是這會讓計算量指數級的增加。是以我們需要比較好的索引技術,能夠快速地定位與新增的公司與個人真正相關的部分節點,以及因為新節點的接入而關系發生變化的原節點。

機器之心:能否給出一些「動态全息檔案」的應用場景?

公司現在主要在做銷售場景。

我們正在和某著名快消公司進行合作。該公司正在面向企業客戶推廣一種新零售解決方案,是以它的銷售團隊希望告訴銷售員,應該去目前區域内的哪家公司進行推廣、和哪位負責人聯系進行推廣。

針對第一個問題,我們從公司的全息檔案中利用所在地理位置、規模、員工平均年齡、收入水準、學曆水準和企業風險等資訊,查找切分出「公司規模相對較大、福利較好,願意接受新零售方案,同時員工平均年齡較低、平均收入較高,是特定産品的消費者」這樣的一部分。

針對第二個問題,我們從公開資訊中找到公司的行政方面的負責人是誰,告訴銷售,這位是你需要聯系的負責購買決策的關鍵人士,并提供觸達該關鍵人物的關系路徑。

除此之外,我們也在打磨一個面向銷售的線上産品。這個産品能夠在短時間内綜合各種公開網際網路資訊,繪制公司組織架構圖,定位關鍵負責人。同時,找到能夠連接配接特定銷售與特定的負責人之間的中間人,讓銷售能夠通過中間人的信任背書與負責人建立聯系。

機器之心:選擇做全息檔案的原因?

首先,現在網際網路的資訊規模是十幾年前的幾百倍,很多資訊出現在網際網路上,變成可以發現。其次,許多技術,尤其是 NLP 技術的發展,使得從大量非結構化資訊中抽取有效結構化資訊的難度降低。

另一方面,全國各行業的銷售人員大概有 8000 萬,即使能夠覆寫到 30%,也是一個非常龐大的規模。而且我們的整套「全息檔案」的技術與服務的模式是可以擴充的,不止局限于銷售場景,還有很多其他的場景可以應用。

機器之心:「動态全息檔案」期望涵蓋多少公司與個人?

一開始我們會覺得「多多益善」,但是逐漸我們發現,一份好的「動态全息檔案」更多應該是場景驅動的、領域驅動的。

是以我們主要從金融、教育、醫療和快消這些領域入手,選擇具有一定規模的、所處領域比較活躍的公司。成立以來,現在我們覆寫的企業數量在 100 萬左右,人員超過 1000 萬。而按照我們的統計與估計,全國符合條件的公司多達數百萬家。一家數百人規模的公司中,擁有決策權的需要覆寫的人數大約在數十人左右。除此之外,我們還要覆寫「如何能夠找到一個特定的人」的關系鍊上的所有人,綜合起來,大約需要覆寫 1 億人。

百煉智能姚從磊:在網際網路公開資訊中「大海撈針」,為一億機構人物建立「全息檔案」

繼續閱讀