知識圖譜支援語義搜尋
知識圖譜源于網際網路,是以第一個落地的應用當然也是網際網路搜尋引擎。前面已經介紹過,谷歌在2012年推出知識圖譜支援的新搜尋引擎時,提出的口号是“Things, Not Strings!”。Web的理想是連結萬物,搜尋引擎最終的理想是能直接搜尋萬事萬物,這是非常樸素且簡單的理念。知識圖譜支援的事物級别而非文本級别的搜尋,大幅度提升了使用者的搜尋體驗。是以,目前所有的搜尋引擎公司都把知識圖譜作為基礎資料,并成立獨立部門持續建設。
知識圖譜支援智能問答
知識圖譜的還可以支援智能問答智能問答,比如天貓精靈、小米小愛和百度度秘等背後都有知識圖譜資料和技術的支援。智能問答本質就是一種對話式的搜尋,相比普通的搜尋引擎,智能問答更加需要事物級的精确搜尋和直接回答。智能廚房、智能駕駛、智能家居等都需要實作這種對話式的資訊擷取。目前,實作智能問答功能主要有三種形式,第一種是問答對,這種實作簡單的建立問句和答句之間的比對關系,優點是易于管理,缺點是無法支援精确回答。第二種形式要求給定問句就能直接從大段文本中準确地定位答案,雖然這是終極期望的形式,但源于語言了解本身的困難,比較難于完全實用。第三種是知識圖譜,相對于純文字,從結構化的知識圖譜中定位答案要容易得多,同時比起問答對形式,因為答案是以關聯圖的形式組織的,是以不僅能提供精準答案,還能通過答案關聯,非常便利地擴充相關答案。
知識圖譜支援下的推薦系統
推薦系統也是知識圖譜的典型應用場景。例如,在電商的推薦計算場景中,可以分别建構User KG和Item KG。知識圖譜的引入豐富了User和Item的語義屬性和語義關系等資訊,将大大增強User和Item的特征表示,進而有利于挖掘更深層次的使用者興趣。關系的多樣性也有利于實作更加個性化的推薦,豐富的語義描述還可以增強推薦結果的可解釋性,讓推薦結果更加可靠和可信。

知識圖譜輔助語言語義了解
知識對于正确了解語言至關重要,是以自然語言處理領域也是擁抱知識圖譜最多的領域之一。正如第一個自然語言了解系統SHRDLU作者Terry Winograd指出的,當一個人聽到或看到一句話時,他使用自己所有的知識和智能去了解。這不僅包括文法,也包括他的詞彙知識、上下文知識,更重要的是對相關事物的了解。Winograd Schema Challenge是人工智能領域有關常識推理的競賽。這個競賽出了很多這種題目,在一個例子中,讓機器閱讀一句話,然後要求機器判斷其中的it是指代the trophy還是the suitcase。此外,還要求機器把句子中的big換成反義詞small之後,能夠正确地選擇相反的答案。這在自然語言了解中稱為指代消解問題,但發現機器基本和瞎猜差不多。這是因為單純從句子的字面意思來看,不論怎麼統計、計算和比對,都沒有關于trophy和suitcase的空間大小的資訊,機器自然無法做出判斷。人類可以迅速地做出正确的判斷,這是因為人在判斷時引入了大腦中的常識知識,即:trophy通常是被裝入suitcase攜帶的,是以suitecase肯定要比trophy大。
知識圖譜擴充視覺了解的深度和廣度
知識圖譜對于凡是涉及語義了解的任務都有作用。除了文本語義的了解,在圖像、視訊等視覺了解任務中,知識圖譜也能發揮作用。如下圖所示,我們看到一隻海鳥,圖檔本身所包含的資訊顯然是有限的。如果能引入知識圖譜中關于海鳥的語義描述、關聯的其他鳥等,就能大幅增強圖檔處理的深度和廣度。比如,可以利用外源知識庫中相關的鳥類資訊來提升相似圖檔的檢索效果。
知識圖譜輔助IoT裝置互聯
語義和知識在物聯網領域有很多的應用場景。OneM2M是物聯網領域的一個國際聯盟,它有一個獨立的工作組,專門為物聯網裝置資料定義本體。這些物聯網本體被用來封裝裝置資料的語義,進而提升物聯裝置之間的語義互操作能力。例如,一個溫度可能是人的體溫,也可能是一個裝置的溫度,進一步了解這個溫度資料還需要知道是在什麼時間、什麼位置等,豐富的語義描述将大大提升物聯裝置資料的利用效率,終極的萬物互聯是裝置通過規範化的語義實作資料層面的互聯。
知識圖譜支援下的大資料分析
知識圖譜也在大資料分析應用中發揮重要作用。著名的情報大資料公司PALANTIR有一個核心技術叫動态本體(Dynamic Ontology),它允許資料分析人員根據自己的需要來定制建構一個本體。例如在一個反恐場景中,需要定義恐怖分子、恐怖事件和高危區域等基本概念以及它們之間的語義關系。PALANTIR再通過機器學習算法和自然語言處理技術從各種資料來源擷取資訊并灌入本體中。事實上,很多領域的大資料分析問題并不需要建構很複雜的算法模型,如果能根據分析的需要建構一個知識圖譜,大部分大資料分析問題都可以轉化為一個知識圖譜上的查詢問題。當然,有了圖結構的資料,也可以更加容易地在知識圖譜上疊加各種圖算法,例如圖嵌入算法、圖神經網絡等。這些算法利用知識圖譜中存在的關系進一步挖掘和推理未知的關系,進而大幅提升資料分析的深度和廣度。知識圖譜技術源于網際網路,最早落地應用的也是搜尋引擎、智能問答和推薦計算等領域。知識圖譜支援通過規範化語義內建和融合多源資料,并能通過圖譜推理能力支援複雜關聯大資料的挖掘分析,是以在大資料分析領域也有廣泛應用。對于語言了解和視覺了解,外源知識庫的引入可以有力地提升語義了解的深度和廣度。
知識圖譜支撐醫療
在醫療領域,為了降低發現新藥的難度,Open Phacts[3]聯盟建構了一個發現平台,通過整合來自各種資料源的藥理學資料,建構知識圖譜,來支援藥理學研究和藥物發現。IBM Waston通過建構醫療資訊系統,以及一整套的問答和搜尋架構,以惡性良性腫瘤診斷為核心,成功應用于包括慢病、醫療影像、體外檢測在内的九大醫療領域。其第一步商業化運作是打造了一個惡性良性腫瘤解決方案(Waston for Oncology),通過輸入紀念斯隆·凱特琳癌症中心的數千份病例、1500萬頁醫學文獻,可以為不同的惡性良性腫瘤病人提供個性化治療方案,連同醫學證據一起推薦給醫生。
知識圖譜支撐投資
在投資研究領域,成立于2010年的AlphaSense公司打造了一款新的金融知識引擎。與傳統的金融資訊資料平台不同,這款知識引擎并不僅僅局限在金融資料的整合和資訊平台的範圍,而是通過建構知識圖譜,加上自然語言處理和語義搜尋引擎,讓使用者可以更友善地擷取各種素材并加工再使用。另外一款非常具有代表性的金融知識引擎是Kensho。它通過從各種資料源搜集資訊,建構金融知識圖譜,并關注事件和事件之間的依賴,以及對結果的關聯和推理,進而可為使用者提供自動化語義分析、根據特定行情判斷走勢等功能。
知識圖譜支援政府管理和安全
在政府管理和安全領域,一個具有代表性的案例是Palantir,因通過大規模知識圖譜協助抓住了本·拉登而聲名大噪。其核心技術是整理、分析不同來源的結構化和非結構化資料,為相關人員提供決策支援。例如在軍事情報分析系統中,将多源異構資訊進行整合,如電子表格、電話、文檔、傳感器資料、動态視訊等,可以對人員、裝備、事件進行全方位實時的監控分析,使排程人員第一時間掌握戰場态勢,并做出預判。除了協助抓住本·拉登,Palantir的另外一項赫赫有名的成就是協助追回了前納斯達克主席麥道夫金融欺詐案的數十億美金。