CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

CCKS 2019 由中國中文資訊學會語言與知識計算專業委員會主辦，浙江大學承辦，以「知識智能」為主題，吸引了來自海内外的八百多名科研學者、工業界專家和知名企業代表參加。

對知識的研究貫穿于整個人工智能的發展史，知識圖譜在人工智能技術領域的熱度也逐年上升。王海峰認為，知識圖譜是讓機器像人類一樣了解客觀世界的基石。在演講中，他用生動的執行個體展示了百度在知識圖譜和語義了解領域的技術探索及應用，并探讨了其未來的發展方向。

以下是演講實錄：

非常高興能有機會參加知識圖譜和語義計算大會。

我現在在百度負責的技術涉及網際網路、大資料、人工智能等方方面面，但是我的專業其實是自然語言處理、知識圖譜。大概 26 年前，我在哈工大，在李生教授和趙鐵軍教授的指導下做機器翻譯系統。當時，主要是基于規則的系統，也要用到知識，那時的知識是把人類專家的知識編輯在規則裡，實作語言的了解、生成，然後實作翻譯。

過去 20 多年，這一領域從基礎研究到應用，都已經發生了非常大的變化。當然，20 多年相比于自然語言處理這個領域 70 多年的曆史來說，還很年輕。

自然語言處理這樣一個有 70 多年曆史的專業，現在仍然欣欣向榮，我想有兩個方面的原因：一方面是因為有大量使用者的真實需求，促使我們更多地投入這方面探索應用；另一方面自然語言處理發展了 70 多年遇到的很多問題都還沒有解決，需要我們進一步深入研究。

我首先從人工智能開始介紹。

大家都知道，人類曆史發展到現在，已經經曆了三次工業革命，每次工業革命都會帶來翻天覆地的變化，生産力的進步帶來了整個社會的變革，生活方式随之發生深刻變化。第一次工業革命使人類走向機械化時代，第二次是帶來了電力，第三次是資訊化革命。我們很幸運，今天處在第四次工業革命的開端，第四次工業革命的核心驅動力就是人工智能。當然，人工智能是為了模拟人的能力，需要包括語音、視訊、圖像、AR/VR 等感覺方面的技術，也需要知識圖譜、語言了解等認知方面的技術。當然，還有機器學習，以及最近這些年很重要的深度學習等等。

感覺能力很多生物都有，而且很多生物這方面的能力比人類強。認知能力則是人類特有的，包括我們的語言和知識。我們通過語言的交流、知識的呈現（知識呈現其實也是基于語言），把知識傳承下來。關于語言和知識，不管是對于人類還是對于人工智能都是非常重要的。

知識圖譜是讓機器像人類一樣了解客觀世界的基石。

過去這些年，AI 技術通過深度學習取得了非常好的效果，尤其是在語音、視覺等感覺技術上取得了非常大的突破，甚至在很多方面，深度學習達到的效果已經超過了人類。深度學習也給自然語言處理以及知識相關的技術帶來了非常大的幫助，但是我們繼續深入研究、應用實踐的時候會發現，我們還需要更好地結合知識、推進知識圖譜相關的工作，才能取得更好的效果。

基本的知識圖譜，會涉及到實體的屬性關系，每一個實體可能有若幹個屬性，實體和實體之間有很多關系，每一個關系基本上可以了解為是一個事實。是以知識圖譜就是對客觀世界的描述。百度 AI 多年技術積累和業務實踐的集大成是百度大腦，百度大腦發展了近 10 年的時間，其中的知識圖譜技術是從 2013 年開始做的。一方面知識圖譜的規模在快速增長，另一方面，基于知識圖譜來提供服務，每天滿足使用者各種需求的量級也在快速增加。過去這些年，百度知識圖譜的服務規模大概增長了 490 倍。

百度大腦技術能力的應用，一開始主要集中在搜尋引擎上，之後開始突破網際網路業務的範疇，面向各種企業級的使用者，比如金融、客服、商業等，發展各種各樣的應用，同時也進行 AI 技術開放，比如通過百度大腦的 AI 開放平台，讓大家應用到我們的 AI 技術。

下圖所示是一個比較完整的百度語言和知識技術的布局。底層的基礎就是知識圖譜，通過知識挖掘、知識整合與補全、分布式圖索引及存儲計算等步驟，建構了包括實體、關注點、事件、行業知識、多媒體等等多元異構知識圖譜。自然語言處理相信大家都不陌生，一個相對完整的自然語言處理體系包括詞法、句法、語義到篇章各個方面。建構一個知識圖譜的時候，這裡面很多技術也會被綜合使用。百度語言與知識技術一方面全面支援百度自己的産品，比如搜尋、問答、對話、機器翻譯等等，一方面通過開放賦能很多企業級的應用。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

廣義來看，知識圖譜也是語言科學的一部分，知識的擷取和運用是了解語言不可或缺的；反過來，為了更好地去建構、挖掘知識圖譜，語言了解技術也是十分必要的，語言與知識技術是相輔相成的。

接下來，我會從這幾個方面來介紹：一方面是多元異構的知識圖譜建構，這裡面會涉及到圖譜建構的一些應用，包括複雜知識等等；另一方面，涉及自然語言處理技術的一些探索。當然，我們的架構圖遠比我今天所講的要完整。在實際應用中，我們還會通過百度的開源開放平台，進行資料和技術的開放。

首先說多元異構知識圖譜的建構。說到知識圖譜，首先就涉及到圖譜的建構，涉及到在開放的、海量的資料裡怎麼樣去挖掘資料、建構超大規模知識圖譜。我們人類學習知識，是靠各種視覺、聽覺等等去感覺世界，不斷地建立和完善知識體系。機器如何學習？或者說讓一個機器的大腦怎麼去學？那就要靠資料, 比如網際網路上海量的多形态資料，蘊含了很多行業應用的有價值資訊。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

首先，我們從大量無标簽非結構化資料中進行開放知識挖掘，一方面我們基于多元資料分析和語言了解技術自動擷取知識挖掘模闆，并通過不斷疊代擷取新模闆、挖掘新知識；另一方面我們基于遠端監督學習來自動建構訓練語料。為了去除自動建構訓練語料中的噪聲樣例，我們提出注意力正則化（Attention Regularization）技術基于實體上下文進行分析，通過模型輸出指導标注語料的選擇。通過這樣一套方法，我們實作在千億級文本中進行更精準地開放知識抽取。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

基于開放知識挖掘抽取了大量的 SPO 三元組，需要對其進行歸納整理，我們提出了自底向上的開放本體建構，即從開放資料中挖掘實體和關系，從海量實體關系中自動學習實體類别關系、類别上下位關系，并逐層抽象形成本體結構，實作知識體系的自學習和建構。利用這樣一套技術以後，本體規模增長了 30 倍，同時事實覆寫也有一個穩定的增長。

另一方面，在這樣海量的資料裡，有很多相似知識可能是從不同的資料、不同的文章裡面抽取到的，這些知識如何進行融合、去粗取精，讓它更準确、有效？這又涉及到多源資料知識的整合。我們通過語義空間變換技術實作實體消歧、實體歸一等等，解決知識表示形式多樣，關聯融合困難的問題。基于前面提到的這些技術，我們現在建構了一個非常龐大的知識圖譜，裡面含有 6 億實體，事實的量或者說各種關系量已經達到了 3780 億。比我們人類大腦裡面儲備的知識多得多。

基本的知識圖譜建構了以後，真正要用于各種真實應用，又涉及到很多更複雜的知識。是以我們從簡單實體拓展到複雜事件，可以描述事件的動态、時序、空間、條件、機率等等關系。

下面我們說一下複雜知識。

比如桃園三結義的照片，在沒有任何知識的情況下隻能識别出畫面中有三個人，有酒，有樹。但是結合實體知識，我們可以知道這三個人的身份和更多的資訊，比如樹是桃樹。進一步基于事件知識，我們知道是東漢末年，劉備、關羽、張飛三人在桃園結義。有了事件知識以後，還可以對動态變化的客觀世界進行模組化。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

事件圖譜以事件為基本機關，表達事件相關的元素以及事件間的關聯關系，比如圖中的内馬爾轉會，中間最左邊是相似事件——姆巴佩轉會, 中間則以時間為線，從皇馬開價、被評為最佳球員、皇馬和巴薩的争奪、到達成轉會協定……形成了一個完整的事件演變脈絡。而參與事件的角色稱為事件論元，如：内馬爾、姆巴佩、巴薩、皇馬等等，與對應的實體圖譜相關聯。

完整的事件圖譜技術包括，底層的資料，事件圖譜的建構（建構涉及到事件抽取、事件關系抽取、事件檢測等技術），事件圖譜的認知計算，例如事件連結、事件計算、事件推理，事件計算包括重要性計算、熱度計算、品質計算、相似度計算；事件推理包括事件關系推理、事件論元預測、事件演化預測等。現在我們基本上可以做到分鐘級的熱點事件收錄，實作千萬量級規模的事件庫，有十幾個領域、4300+事件的類型。事件圖譜應用，比如搜尋熱點「華為正式釋出鴻蒙」可以呈現出完整的事件發展過程，幫助使用者清楚地了解事件的來龍去脈；又如三峽大瀑布景區停業緊急通知，涉及地圖資訊點的發現、更新。

說完了複雜知識，我們再說行業知識。

行業資料量非常龐大，但是真正應用在一個行業裡的時候，都需要轉化為行業相關的專業性知識。行業知識，需求到底大到什麼程度，舉一些例子：研究報告認為，到 2020 年，行業資料的體量會是非常巨大的，比如說法律專業每年産出 4 億卷宗，醫療方面的資料會提升 48% 以上。還有一些行業是知識密集型的，而營運商會用到很多的人工客服，中國有全職客服 500 萬人，人力成本巨大。另一方面，傳統行業對于大資料的應用比例還是很低的，比如金融行業非結構化資料占 80% 左右，有效使用率隻有 0.4%，而人工建構知識圖譜，以 freebase 為例，每條人工成本大約為 2.25 美元，也都不便宜。

與通用知識圖譜相比，行業知識圖譜有共性也有所差別。比如說，通用圖譜相對淺層，但覆寫非常廣。因為通用知識圖譜主要是以網際網路、大資料為基礎的。大家知道，網際網路經過 20 多年的發展，已經和人類日常生活的方方面面都密不可分了，某種程度上，網際網路可以被了解為客觀世界的一個映射。這個龐大的網絡能夠建構很多種圖譜，但是真正涉及到某個行業的非常細緻、深入的知識圖譜，網際網路不能都覆寫到。是以，很多行業的知識圖譜是相對封閉的，一般是由一些專家去建構、去标注。從圖譜服務的角度，通用圖譜可以讓大家都去應用，但是行業圖譜是針對特定行業的需求，定制化程度比較高，也有不同的應用方向。是以，以通用圖譜為基礎，面向行業的開發者，在圖譜開發的時候，會涉及到一系列特有問題。

基于這樣的背景，我們建構了一體化的行業知識圖譜平台，将多年積累的通用圖譜建構能力遷移至行業，建設了行業圖譜的基礎架構和建構平台，以及智能問答、語義檢索、推理計算、智能推薦、内容生成等基礎能力元件，支撐行業應用，并且針對行業特點實作一些優化，服務于不同領域的使用者。

這裡簡單介紹一下醫療的知識圖譜。為了建構一個醫療場景的知識圖譜，我們跟很多合作夥伴合作建構了這樣一個架構，包括結構化的解析、實體連結、人機結合、因果關系學習、診斷路徑挖掘等等。我們可以看到，專業醫療圖譜涉及到醫院、醫師、疾病等等各個方面，通過醫療的認知計算，提供各種醫療臨床輔助決策服務。

多媒體知識圖譜。今天我講的題目，是知識圖譜和自然語言處理，但實際上，人類幾千年傳承靠知識來做載體，還包括了語音、視覺，以及各種各樣的形式。現在視覺類的産品，坦率來說都不智能。比如，計算機視覺技術可以識别，但識别出來之前，如何将這些孤立的資料聯系起來？還是跟圖譜相關。我們可以基于圖譜把知識關聯起來，進行它們之間的關聯與計算，進而能夠做結構化的語義了解。

大家看到，這是《大河唱》的一些片段。這些片段裡面，我們通過綜合應用計算機視覺技術、語音識别技術、自然語言了解技術，把其中的語音、視覺、文本融合起來，并通過與背景知識的關聯，形成對視訊的深入了解。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

接下來介紹知識增強的語言處理技術。如前面所說，一方面語言了解是我們發現知識很重要的基礎，另一方面，有了這些知識，可以更好地幫助我們做人工智能。在語言方面，首先介紹語義表示。我們知道，自然語言存在很多歧義，同時一個意思也可以用不同的詞來表述，句子表達的形式非常多。因而好的形式化語義表示是計算機處理語言的基礎，語義表示可以分為形式化符号表示和統計分布式表示。随着深度學習的興起，統計分布式語義表示這幾年很受歡迎。簡單回顧一下曆史，相信大家都很清楚，2003 年，圖靈獎獲得者 Bengio，最早提出了前饋神經網絡語言模型，這些年得到了很大的發展，這兩年出現了很多基于分布式表示的預訓練語言模型。今年百度先後釋出了兩版語義了解架構 ERNIE。ERNIE1.0 是基于知識增強的語義表示模型。我們為了訓練這些模型，使用了包括百度百科、新聞、對話等等海量的多樣化語料，同時強化了中文的詞、實體等先驗語義知識，進而得到更好的語義表示模型。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

在 1.0 知識增強的基礎上，我們希望不斷更新這個系統，ERNIE2.0 在知識增強的同時，又增加了持續學習的能力，通過基于多任務學習的預訓練任務疊代，不斷提升模型性能。通過對百科、對話，篇章結構、網頁搜尋、語義關系等超過 13 億知識不斷地學習，不斷地積累，ERNIE 在多項中英文自然語言處理任務上取得了業界最好效果。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

基于語義表示，我們可以做更複雜的語言了解任務, 例如機器閱讀了解。

機器閱讀了解就是讓機器來閱讀文本，并且回答相關的問題。知識對于機器閱讀了解會起到什麼作用呢？比如這個例子，問的是《人在囧途》是誰的代表作，僅靠文本自身的内容是不夠的，需要基于一些外部知識來得到想要的答案。為此我們提出文本表示和知識表示融合的閱讀了解模型 KT-NET，通過融合前面講的知識圖譜增強文本閱讀能力。這個技術在實體對話等很多領域已經得到了非常好的應用效果。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

閱讀了解能力也廣泛應用于搜尋産品。現在我們的移動裝置越來越小，而大家的工作生活節奏越來越快，希望搜尋不再像以前是一條條的 URL、摘要，更直覺、準确的結果是大家更希望看到的。這裡面就涉及到智能問答的技術，比如「香格裡拉酒店的老闆是誰」，這個問題，大家就需要很直覺的回答。有時智能問答不僅僅是直接給出一個答案就可以，更多的應該是一段話來進行高度相關的解釋。比如面對「煎魚怎麼不粘鍋」這個問題，我們會給出方法一、方法二兩個回答。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

對于聊天，我們提出基于知識的主動聊天技術。目前相對普遍的技術是使用者問一句，然後機器進行回答，使用者主動地問，機器被動應對。而真實場景的聊天，使用者是希望機器可以主動地發起對話的。于是我們設計了基于知識驅動的自主對話任務，讓機器根據給定的知識圖譜資訊，主動來引領對話程序，達到資訊充分互動。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

基于百度飛槳（PaddlePaddle），我們開源了檢索模型、生成模型兩個主動對話的基線模型。同時我們舉辦了一個知識驅動的對話競賽，這個競賽影響很廣泛，參與度很高，隊伍報名數 1536 支，送出結果數 1688 次。

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

最後介紹一下語言生成，包括機器輔助寫作和智能自動創作。

現在内容創作過程中面臨一些痛點，包括捕捉不到熱點資訊，實時報道速度不夠快，也包括人工稽核成本高、搜集素材費時費力、創作用詞缺乏靈感、多模态内容需求等等。這些問題借助我們的技術，都可以緩解。創作前可以輔助選題、激發靈感，包括熱點發現、熱詞分析、事件檢索、觀點分析等等。創作中可能需要更多輔助的素材，把很多相關的内容呈現出來，這個時候需要做資訊的推薦，加入一些領域知識庫，一些曆史相關的事件脈絡，幫助寫作。當然還有标題的生成，這個也是很有技術含量的。創作後保證品質、提升分發。保證品質包括文本糾錯、低質檢測、詞語潤色；提升分發，包括添加文章标簽、自動摘要、文本分類。

這是一個輔助寫作系統完整的架構圖。

這是一些輔助寫作示例。第一個熱詞分析是以「中美貿易戰」為例，第二個就是事件脈絡，第三個是标題生成，最右邊是文本糾錯、詞語潤色、文本标簽。

以上主要是通過輔助寫作提升效率，讓作者從重複工作中解放出來。另外一方面，機器也可以自動創作，能夠實時的追蹤事件的波動，自動把相關的資訊彙聚，生成文章，覆寫重要資訊。相比人工寫作，既省時省力，還可以提升稿件品質，應用程度非常高，也非常廣。這是基于結構化資料自動生成新聞的基本過程，包括宏觀規劃、微觀規劃、表層實作。

為了實作智能創作，百度打造了智能創作可視化平台。

上述語言和知識技術，都是基于百度飛槳深度學習平台實作的，飛槳是國内唯一功能完整、開源開放的深度學習平台。其中 PaddleNLP 是中文語言與知識模型及資料集，開放了大規模的資料集，包括閱讀了解、對話、語音翻譯、資訊抽取、實體鍊指資料集等等。提供基礎網絡，支援序列标注、文本分類、語義比對、語言生成等等各種類型任務，還包括百度最新的前沿研究成果。

這個是百度大腦語言與知識技術開放平台全景，不僅包括知識表示、語義了解等基礎技術，還包括應用平台。比如翻譯開放平台，大家可以直接調用翻譯平台，進行翻譯任務。翻譯方面，我們提供多模翻譯、領域翻譯、通用翻譯等多項領先技術。此外還有 UNIT 平台，可以進行對話配置與訓練，以及行業知識圖譜平台、智能創作平台……此外，百度大腦還包括面向各種行業場景化的解決方案。

最後，百度願與學界、業界同仁，一起打造合作共赢的 AI 開放生态。

我的報告就到這裡，謝謝大家！

CCKS 2019 | 百度CTO王海峰詳解知識圖譜與語義了解

繼續閱讀

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark