天天看點

大資料知識工程發展現狀及展望丨中國工程科學

作者:中國工程院院刊

本文選自中國工程院院刊《中國工程科學》2023年第2期

作者:鄭慶華,劉歡,龔鐵梁,張玲玲,劉均

來源:大資料知識工程發展現狀及展望[J].中國工程科學,2023,25(2):208-220.

編者按

知識工程旨在研究人類知識的機器表征與計算問題,是人工智能領域重要的分支。大資料知識工程是人工智能的“基礎設施”,可以從多源大資料中挖掘碎片知識,融合成人類可了解、機器可表征與可推理的知識庫 / 知識圖譜,為諸多行業和領域解決具有共性需求的、由資訊化邁向智能化的實際工程問題。

中國工程院院刊《中國工程科學》2023年第2期刊發西安交通大學鄭慶華教授研究團隊的《大資料知識工程發展現狀及展望》一文。文章闡述了大資料知識工程産生的背景與概念内涵,提出了“資料知識化、知識體系化、知識可推理”的研究架構;梳理了知識擷取與融合、知識表征、知識推理等大資料知識工程關鍵技術和智慧教育、稅務風險管控、智慧醫療等典型場景中的工程應用;總結了大資料知識工程面臨的挑戰,研判了大資料知識工程的未來研究方向,包括複雜大資料知識擷取、知識+資料混合學習、腦啟發知識編碼記憶等。文章建議,引導多學科交叉融合,設立重大和重點研發專項,推動大資料知識工程基礎理論與技術攻關;加強企業和研究機構間交流合作,推廣前沿研究成果并形成應用示範,建立大資料知識工程行業标準體系;以重大需求應用為導向,探索校企協同育人模式,加快大資料知識工程技術在重要行業的落地應用。

大資料知識工程發展現狀及展望丨中國工程科學

一、前言

大陸資訊化建設經過40多年的發展,在教育、政務、金融、醫療等領域積累了海量資料,如何将這些資料進一步轉化為相關知識、反哺領域發展、破解實際工程難題,逐漸成為各領域的共性需求。知識工程旨在研究人類知識的機器表征與計算問題,是人工智能領域重要的分支,其目的是将人類或專家的知識輸入到計算機中并建立推理機制,讓機器也能擁有知識并能進行計算和推理,據此解決實際問題。目前,大陸知識工程的發展經曆了以專家系統為代表的傳統知識工程和以主流深度學習技術為代表的現代知識工程等階段,顯著推動了各領域的發展,但在解決各領域實際工程問題中仍存在一定的局限性。例如,傳統知識工程在20世紀七八十年代得到迅猛發展後,在90年代進入“寒冬期”,主要原因在于“知識擷取”主要來自領域專家,面臨人工成本過高、專家經驗局限、無法動态解決複雜工程問題等;在現代知識工程階段,深度學習模型(尤其是大規模預訓練模型)在自然語言處理、計算機視覺等方面取得顯著發展,但這類資料驅動的模型存在資料依賴性強、算力 / 能源消耗過度等挑戰,難以應對實際工程問題中的高階、多跳推理任務,也難以滿足醫療、資訊安全等關鍵領域的可解釋性需求。

大資料知識工程可以從多源大資料中挖掘碎片知識,融合成人類可了解、機器可表征與可推理的知識庫 / 知識圖譜,可顯著緩解上述技術的局限性,為求解實際工程問題提供支撐。與傳統知識工程不同,大資料知識工程的知識擷取過程以機器為主、人工為輔,有效地緩解了傳統知識中“知識擷取”的瓶頸問題;同時,大資料知識工程生成的符号化知識有助于彌補現有深度學習的局限性,兩者融合有望實作“符号+神經”的推理方式,可以同時應對實際工程問題中普遍存在的直覺系統(System 1)與邏輯分析系統(System 2)的推理任務。

為推動大資料知識工程的進一步發展,本文将梳理大資料知識工程的發展現狀,總結該領域面臨的挑戰和未來的研究方向,提出大陸大資料知識工程科技與産業高品質發展的對策建議,助力大資料知識工程的落地應用,服務大陸經濟社會發展。

二、大資料知識工程的發展現狀

(一)大資料知識工程概述

資料 ‒ 資訊 ‒ 知識 ‒ 智慧體系(DIKW)模型自底向上刻畫了從資料、資訊、知識到智慧的層次關系以及不斷增值的過程,廣泛應用于知識管理領域。據此,本文提出了大資料知識工程研究架構(見圖1),包含資料知識化、知識體系化、知識可推理3個階段。

大資料知識工程發展現狀及展望丨中國工程科學

圖1 大資料知識工程的研究架構

資料知識化旨在實作資料增值。首先,從多源海量的大資料中挖掘出能夠用于問題求解的碎片知識,形式包括文本片段、圖像、邏輯規則等;其次,通過去冗消歧,實作碎片知識的量質轉換;最後,采用表征學習方法,将不同模态的碎片知識表征到一個低維稠密的公共空間中,為後續推理計算的跨模态互操作提供支撐。碎片知識與輸入資料相比,不僅從規模上得到約簡,而且實作了由低質向可信、非結構化向結構化的轉化,由此提升了資料的價值密度。

知識體系化是根據實際工程問題将跨域的碎片知識融合成知識體系,實作知識增值的過程。首先,挖掘出碎片知識之間的因果、前序等語義關系。例如,在計算機領域中,與“線性表”相關的碎片知識與“堆棧”就存在前序關系,必須先學習前者,再學後者。其次,通過對碎片知識及語義關系進行非線性融合,産生不同于已有碎片知識的新知識,實作“整體大于部分之和”。

知識可推理是根據知識融合生成的知識體系,找出求解工程問題所需的推理路徑的過程。傳統符号系統擅長确定性推理,易于刻畫顯性知識,具有可組合、可解釋等特性,但也存在組合爆炸問題,并在不确定性推理、隐性知識刻畫等方面存在局限性。基于深度學習的機器推理模型具有較強的表征與學習能力,但泛化能力有限,且大多屬于黑盒模型,存在可解釋性問題。是以,僅依靠傳統符号系統或深度學習模型難以滿足實際中的複雜推理需求,需要融合符号推理和深度學習。此外,推理過程涉及諸多優化目标,包括精準度、時效性、可解釋性,這些目标又可以分解為多個子目标,是以,在實際工程問題中的機器推理是一個多步驟、多目标組合優化難題。

(二)大資料知識工程的關鍵技術

基于大資料知識工程研究架構,本文給出了大資料知識工程的技術體系(見圖2)。該技術體系包括知識擷取與融合、知識表征、知識推理等核心技術。具體來看,知識擷取與融合包含知識圖譜建構、邏輯公式抽取、基于知識森林的知識融合等技術;知識表征包含符号化表征和分布式表征等技術;知識推理包含知識檢索推理、自動問答推理、有記憶推理和可解釋推理等技術。其中,知識擷取與融合技術和知識表征技術能夠解決資料知識化和知識體系化問題,知識推理技術能夠解決知識可推理問題。

大資料知識工程發展現狀及展望丨中國工程科學

圖2 大資料知識工程的技術體系

1. 知識擷取與融合

知識擷取是從單個或多個資料源中提取知識并形成知識庫的過程,是後續知識表征與知識推理的前提和基礎。知識圖譜與邏輯公式是目前兩種主流的知識庫組織形式。

① 知識圖譜最初是由谷歌公司提出,用來優化搜尋引擎的技術,用于描述現實世界中的概念及其互相關系。知識圖譜用資源描述架構(RDF)三元組和屬性圖表示知識,其目的在于從資料中識别、發現并推斷事物與概念間的複雜關系。知識圖譜的建構涉及實體抽取、關系抽取、事件抽取等内容。其中,實體抽取是從文本中檢測出命名實體并将其分類到預定義的類别中,如人物、組織、地點、時間等;關系抽取指根據文本上下文識别兩個或者多個實體之間的關系,如“出生于”“首都”“夫妻”關系等;事件抽取指識别文本中關于事件的資訊,并以結構化的形式呈現。此外,一個高品質的知識圖譜還需要實體融合、關系推理等步驟,可用于知識問答、語言了解、決策分析等多個領域。

② 邏輯公式是一種通過謂詞、量化符、操作符、參數等來描述客觀事物邏輯關系的形式化語言。邏輯公式包括命題邏輯公式、一階邏輯公式以及高階邏輯公式。邏輯公式抽取旨在将大量知識通過修改和擴充邏輯表達式的方式來完成對碎片知識的歸納。與知識圖譜相比,邏輯公式是對知識更高層次的總結與歸納,且具有更好的可解釋性。在知識圖譜基礎上抽取泛化性更強的一階邏輯公式是目前的研究熱點。例如,從“統計量”角度出發,首先生成一階邏輯公式候選集,然後根據特定的評估函數篩選符合要求的一階邏輯公式。此外,可以通過建構可微分網絡模型來同時學習一階邏輯公式的置信度和結構資訊,使其具備良好的通用性和泛化能力。

在知識擷取的基礎上,知識融合的根本性問題在于如何對不同來源的資料進行合并,去除備援知識,實作對知識的最優整合。為解決這一問題,西安交通大學研究團隊提出了一種創新的知識融合模型,即知識森林。如圖3所示,知識森林采用“分面聚合”與“導航學習”相結合的政策,形成由主題分面樹(右圖樹形結構)與學習依賴關系(左側森林中路徑)結合的知識層次結構。知識森林的建構包括主題分面樹生成、碎片化知識裝配、認知關系挖掘3個步驟。其中,分面樹生成旨在挖掘領域内具有飽滿内容資訊的知識主題及其更細粒度的分面結構,可以先通過主題分面聯合學習算法生成主題和分面集合,然後基于基序(Motif)結構挖掘每個主題的分面層級結構。碎片化知識裝配旨在學習文本、圖像等碎片知識和主題分面樹的映射關系,形成執行個體化的主題分面樹,以圖文并茂的知識表達形式為學習者提供更加全面的主題内容。上述知識森林建構過程可以通過運用自然語言處理、計算機視覺、跨媒體挖掘等技術得以實作。學習依賴關系表現為在學習某項知識主題之前必須要掌握該知識主題的前提知識,這類關系的挖掘可通過分析知識主題的分布特性與語義特性、認知關系的局部性與非對稱性來實作。知識森林是一種創新的知識庫形态,可為知識檢索、智能問答、問題生成等推理任務提供知識支撐,在教育、稅務、醫療等多個領域具有應用前景。

大資料知識工程發展現狀及展望丨中國工程科學

圖3 知識森林

整體來看,目前的知識擷取和融合方法已取得顯著成效,但這些方法大都是基于封閉域的方法,預先設定了特定知識類型集合,難以滿足實際應用中新知識不斷衍生、更新的需要。是以,如何實作開放域知識的擷取與融合仍是未來研究的一項挑戰。

2. 知識表征

傳統的基于符号邏輯的知識表征方法,包括産生式規則、霍恩邏輯、腳本理論等,能夠刻畫顯式、離散的知識。這類方法的計算和推理能力弱,難以挖掘複雜知識實體間的語義關系。與之不同,分布式的知識表征将知識轉化為便于計算機存儲和計算的向量形式,更有利于後續的複雜推理,是實作高效人工智能系統的關鍵。

知識分布式表征經曆了從淺層表征到深層表征的過程。20世紀初,研究人員主要關注淺層知識表征方法,包括主成分分析、線性判别分析、流形學習、多層感覺機等;21世紀初,面向神經網絡的貪婪分層預訓練和參數微調方法掀起了深層知識表征的熱潮。與淺層表征相比,深層表征方法的網絡隐層數明顯增多、參數量增大,可以更準确地學習大資料内部隐藏的規律,進而準确刻畫知識在語義、結構等方面的特性。近年來,計算機硬體資源的提升又進一步推動了基于深度網絡的知識表征方法的發展。

知識分布式表征主要分為知識圖譜表征和邏輯規則表征兩類。

① 知識圖譜的表征學習旨在将知識圖譜中的實體和關系嵌入到連續的低維向量空間中,主要分為直推式學習與歸納式學習兩類。直推式學習旨在挖掘知識圖譜中實體和關系的特征資訊,同時将特征資訊用于知識圖譜中隐藏連結的補全。以TransE、RESCAL等為代表,直推式方法對知識圖譜中已知的實體、關系或整條三元組進行特征表示,并設計合理的得分函數以衡量三元組特征嵌入的合理性。歸納式學習主要用于提取目前知識圖譜外部的實體和關系的潛在表征,需要模型擁有更高的泛化能力。以GraIL方法為例,利用知識圖譜的實體無關性挖掘三元組的局部子圖拓撲結構資訊進行潛在特征提取,是知識歸納式學習的主要方法。

② 邏輯規則表征旨在将離散的符号化邏輯公式映射到低維連續空間,是連接配接符号主義和聯結主義的紐帶之一。邏輯公式表征的過程雖然可能存在部分資訊損耗,但由于輸入樣本一般含有噪聲,将其嵌入到低維空間可以過濾掉部分噪聲,提升模型的泛化能力,并有效減少邏輯公式的存儲與計算成本。邏輯公式表征學習首先将邏輯公式轉換為對應的句法結構,之後使用神經網絡模型進行嵌入。根據使用句法結構和表征網絡的不同,邏輯規則表征學習研究可以分為基于序列、基于樹結構和基于圖結構的邏輯公式表征方法。其中,基于序列的方法将邏輯規則視為簡單的符号序列形式,之後通過神經網絡進行嵌入;基于樹結構的方法通過句法解析工具将邏輯規則轉換為樹結構并進行嵌入;基于圖結構的方法常采用圖卷積神經網絡強化邏輯規則中節點之間的資訊互動,以便捕獲更深層的結構資訊。

近年來,深度學習技術已在知識深層表征學習方面取得重大突破,但仍然存在訓練成本偏高、可解釋性弱、動态演化難等挑戰,未來還需更加深入研究。

3. 知識推理

知識推理是根據已有的知識推斷出新知識或識别錯誤知識的過程。在大資料知識工程中,知識推理以知識表征學習的結果為輸入,以計算機視覺、自然語言處理、跨模态學習等技術為手段,輸出推理結果。典型的知識推理技術包括知識檢索推理、自動問答推理、有記憶推理和可解釋推理等4種。

知識檢索推理是在知識組織的基礎上從知識庫中檢索出知識的過程。給定一組查詢,知識檢索技術需要通過對問題進行解析、了解,進而在知識庫中完成查詢、推理、比較等邏輯運算。最初的知識檢索方法由資訊檢索發展而來,經曆了資訊檢索 ‒ 特定知識庫檢索 ‒ 知識圖譜檢索的發展過程。随着知識庫規模的不斷增大,未來的知識檢索将面臨知識圖譜模式複雜性高、檢索算法複雜性高和泛化性弱等問題。

自動問答推理是根據使用者的自然語言問題在已有資源上進行查詢與推理,最終将精準答案傳回給使用者。根據推理空間中不同的資源組織形态,可将自動問答分為自然語言問答、跨模态問答和視覺問答等。例如,教科書式問答是面向智慧教育的智能答疑,是教育領域的一項跨模态問答推理任務。作為自動問答的對偶問題,問題生成可以為自動問答系統提供必要或額外的資料,能夠與問答系統有機地結合在一起而互相促進。

模型具備推理能力的關鍵前提是模型具有記憶能力。相比其他推理模型,有記憶推理模型能夠儲存更多的資訊,可以在後續推理任務中加以使用。有記憶推理模型的發展經曆了長短期記憶(LSTM)網絡、神經圖靈機、記憶網絡和可微神經計算機(DNC)等階段。其中,DNC采用外部存儲矩陣作為神經網絡的“記憶”,采用一個變體的LSTM作為“控制器”,具有強大的記憶管理能力,可以選擇性地寫入和讀取記憶,允許對記憶内容進行反複地修改。是以,DNC在某種程度上更接近于人類大腦的能力。

深度學習模型的高複雜性和黑盒屬性使模型無法為推理的結果作出解釋。根據解釋産生的方法,推理模型一般分為事前解釋和事後解釋模型。最近,為了實作推理過程的可控制和可幹預,研究人員提出了符号化分層的可解釋推理模型(SHiL)。該模型屬于事前和事後解釋推理模型的融合。SHiL的核心思想是“分層遞階可控+符号化知識驅動”,即基于介科學理論,将多層次多尺度動态時空關聯的複雜資料系統劃分成若幹介區域,形成分層遞階結構。同時,針對每個介區域的功能和狀态特點,建構内嵌着實體學或社會學知識的符号化控制機制(如常識、規則等)。SHiL模型具有可了解、可程式設計、可幹預的特點,實作了知識驅動的資料計算及推理。

最近,知識推理的發展已經進入融合符号主義與聯結主義的階段,即利用前者規則的邏輯推理能力和後者深度學習的自主學習能力,建構更加強大的知識推理模型。

(三)大資料知識工程的工程應用現狀

1. 智慧教育

智慧教育旨在運用現代資訊技術改變傳統教育模式,促進教育改革與發展。教育大資料指整個教育活動過程中所産生的、根據教育需要所采集到的、一切用于教育發展并可創造潛在價值的資料集合。大資料驅動的教學範式具有高效率、有智慧、産業化等優點。在教育資源方面,可采用知識圖譜等技術聚合多個地區、多種形态的優質資源,并對這些資源進行表征和深度分析,為教師教學和學生自主學習提供資源支撐;在“教”方面,利用教育大資料,可以生成教學方案、模拟教師作出決策等,大幅減輕教師工作負荷,實作優質師資的快速、規模化“複制”;在“學”方面,通過分析學生的興趣、能力、學習狀态和知識掌握能力,精準規劃學生學習路徑、學習資源等,實作因材施教。

近年來,西安交通大學研究團隊将知識森林理論成功應用于線上教育,研發了知識森林導航學習系統,解決了散、雜、亂碎片知識的結構化和體系化描述問題,優化了海量線上教學資源的組織方式,提高了線上學習效率和備課品質。在此,以“萬有引力”知識的擷取、學習和備課為例進行簡要介紹。

① 将以往利用搜尋引擎在網際網路上漫無邊際查找學習資料的方式轉變為知識森林導航學習系統指導下的學習資源查找。在查找“萬有引力”知識點時,系統将給出與“萬有引力”相關的知識體系,實作“既見樹木,又見森林”,既能友善地擷取某個特定知識點的知識,也能從宏觀上得到與之相關的知識點。

② 知識森林提供了個性化的導學路徑推薦。在開展線上教育時,利用知識森林為學生提供一系列導學功能。例如,能夠為學生生成一條符合“萬有引力”學習目标以及認知能力的學習路徑,避免無目标、無頭緒的亂學,即解決所謂的“學習迷航”問題;能夠解答學生學習中與課程知識相關的問題,幫助學生答疑。

知識森林導航學習系統已在高等繼續教育及國際教育教育訓練領域進行了應用,驗證了大資料知識工程在教育領域的應用價值。在高等繼續教育領域,基于知識森林建構技術及導航學習技術研發建成的“慕課(MOOC)中國”學習平台,促進了大陸MOOC平台的做大做強,搶占全球MOOC智能導學技術制高點。在國際教育教育訓練領域,基于知識森林建構技術和導航學習技術建立了國際工程科技知識中心(IKCEST)絲路工程科技發展專項教育訓練系統,服務于俄羅斯、泰國、吉爾吉斯斯坦、烏茲别克斯坦等“一帶一路”國家,培養了來自100餘個國家的4萬多留學生以及在華涉外企業人員。

2. 稅務風險管控

智慧稅務旨在推動現代資訊技術新成果與稅收工作深度融合,促進納稅服務進一步便捷普惠、稅收征管進一步提質增效、稅收執法進一步規範透明,最終目标是全方位提高稅務服務能力、監管能力和執政能力。事實上,稅務場景包含政策法規、報表、發票、預算、結算等相關資料,如何有效利用此類海量、低質、無序的碎片資訊,并實作自動化輔助決策是智慧稅務治理面臨的重要挑戰。運用大資料知識工程方法,一方面可自動化地從海量稅務資料中擷取蘊含的法規、經濟、行業等知識,另一方面能夠對提煉的知識進行推理和應用,解決稅務領域面臨的智能化決策支撐、可解釋的稅收監管等關鍵難題。

從稅收服務的角度來看,運用大資料知識工程,可有效實作稅收政策與納稅人的雙向精準比對,以應對稅收政策文本、納稅人經營情況實時變化帶來的挑戰。首先,從稅收政策文本中擷取多類規則和條件(包括行業屬性、納稅人屬性、稅種資訊、涉稅限制等),并采用知識融合技術對知識庫中的規則進行重複合并、失效剪裁,建構規則知識庫;随後,對相關知識進行規則編碼,建構決策表;最後,可結合實際業務需求,将擷取納稅人資料交由規則計算引擎自動計算稅額、自動填寫申報等,最大限度地減少納稅人的時間及心理成本,并保證各類稅收政策的應享盡享。

從稅收監管的角度來看,大資料知識工程方法可以從企業資金流、發票流、合同流、物流中抽取碎片化知識,結合财稅行業特征知識,建構面向稅務部門的财稅知識庫。随後,通過運用知識表征和符号化知識推理技術,将風險線索依據時序、依賴、因果等關系進行動态融合,生成推理路徑和證據鍊,提高涉稅違法行為稽查結果的可解釋性,進而主動發現潛在涉稅違規企業,幫助稅務部門有效控制企業的犯罪風險,減少偷稅漏稅帶來的财政損失,促進精準監管和精确執法,同時避免對誠信納稅人的打擾。此外,對于涉稅違規企業,不僅可以得到識别結果,還可以給出相關的證據鍊以保證可信性、公信力和執行力。

3. 智慧醫療

智慧醫療是一種以居民健康醫療資料為核心,融合物聯網、雲計算、人工智能等新興技術的綜合服務模式。“十三五”以來,随着醫療資訊化的高速發展,包括以電子病曆為核心的臨床系統建設、以控費為目的醫保控費系統建設、“網際網路+”醫療資訊系統改進以及以醫聯體為載體的區域衛生資訊化建設,積累了海量的醫學資料。如何從這些資料中提取資訊,進行有效管理、分析和應用,是實作醫學知識檢索、臨床診斷、醫療品質管理以及電子健康檔案智能化分析處理的基礎。建構醫學知識圖譜則是實作上述目标的關鍵手段。

中文醫學知識圖譜CMeKG是基于大規模醫學文本資料,以人機結合的方式研發而來的。該知識圖譜的建構參考了國際疾病分類體系(ICD)、解剖學治療學及化學分類系統(ATC)、醫學系統術語表(SNOMED)、醫學主題詞表(MeSH)等權威國際醫學标準以及規模龐大的臨床指南、行業診療規範以及醫學百科知識等資訊。CMeKG 1.0(2019年1月)包括6000多種疾病、10 000多種藥物(西藥、中成藥、中草藥)、1200餘種診療技術及裝置的結構化知識描述,涵蓋疾病的臨床症狀、發病部位、藥物治療、手術治療、鑒别診斷、影像學檢查以及藥物成分、适應症、用法用量、有效期、禁忌症等30多種常見關系類型;CMeKG 1.0中有描述醫學知識的概念關系執行個體及屬性三元組超過100萬。CMeKG 2.0(2019年9月)則針對多源異構的醫學資源進行了知識融合,新增了症狀類知識,并對兒科疾病進行了較長的描述。拓展後的CMeKG 2.0目前包含超過10 000種疾病、20 000種藥物、10 000種症狀以及3000種診療技術的結構化知識描述,相應的醫學知識三元組達156萬。

基于醫學知識圖譜進行醫療資訊檢索能夠提高檢索精度,克服傳統醫療搜尋響應速度慢、存儲消耗大等缺點。例如,中醫藥學語言系統結合“知識卡片”嵌入以及“知識地圖”展示,可将中醫領域概念知識進行可視化,友善使用者針對具體概念進行查詢和搜尋。國外著名的專用醫療資訊搜尋引擎有WebMed、Healthline以及Google Health等,其中Google Health在面對具體疾病及症狀的搜尋請求時,能夠提供超過400種健康狀況的資料,同時能給出相應的症狀描述。

基于醫學知識圖譜,結合患者症狀表現及化驗資訊,臨床決策支援系統(CDSS)可自動生成診斷報告以及治療方案,并能對醫生給出的診療方案進行查漏補缺,減少甚至避免誤診情況的發生。大陸代表性的CDSS開發者有神州醫療、邁瑞醫療等,國際上有DiagnosisOne、DXplain、Micromedex等。目前,将知識圖譜應用于CDSS已成為研究熱點,但仍面臨全科醫學知識圖譜不完備、醫療決策置信度不高、基于人工智能方法得到的預測結果缺乏可解釋性等挑戰。

三、大資料知識工程技術面臨的挑戰與未來研究方向

随着人工智能、物聯網、雲計算及區塊鍊等技術的飛速發展,各領域産生了記錄人類生産、生活行為的海量資料。基于這些海量資料,如何挖掘其中的模式和規律知識,實作從資料到知識、從知識到決策的轉化,是第四範式科學研究要解決的核心問題。最近,受AlphaFold這一任務的啟發,研究人員提出了“科學研究的第五範式雛形”的思想,指出需要将領域知識(包括人類先驗 / 專家知識等)融入到算法以及模型的設計中,以更好地解決領域問題。據此,本文分析了大資料知識工程在知識擷取、知識表征和知識推理等方面面臨的挑戰,并探讨了解決這些挑戰潛在的未來研究方向。

(一)知識擷取

傳統的知識擷取技術更專注于從海量文本資料中挖掘潛在知識,在模态多樣性和知識類型上存在較大的局限性。未來,如何擷取蘊含資訊更加豐富的視覺知識和隐匿性強的常識知識将是知識擷取技術的發展方向。下面對這兩類知識進行介紹,并分析其潛在的研究方向。

1. 視覺知識擷取

視覺知識是一種有望提高跨媒體知識表達能力,進一步推動人工智能發展的新架構。認知心理學理論表明,視覺記憶是差別于語言記憶的特殊存在,人類可以對腦内的視覺記憶根據需要進行折疊、旋轉、掃描、類比等操作。這類記憶被認知心理學家稱為“心象”,在人工智能領域被稱為視覺知識。視覺知識具有以下特性:

① 能表達對象的空間形狀、大小、空間關系以及色彩和紋理;

② 能表達對象的動作、速度及時間關系;

③ 能進行對象的時空變換、操作與推理,包括形狀變換、動作變換、速度變換、場景變換、各種時空類比、聯想和基于時空推理結果預測。如何有效處理并合理運用視覺知識成為人與資訊及資訊機器交流最重要的途徑。

視覺知識具有多種表達形式,根據知識的連續與離散表達可以将其劃分為靜态視覺知識和動态視覺知識。靜态視覺知識又稱為視覺常識,指從真實世界場景中可收集到的靜态視覺事實以及社會主體根據該事實可預知的資訊或做出的推論。計算機對于視覺常識知識的研究是極其困難的。一方面視覺常識知識的廣度巨大,且計算機缺乏類似人類對于常識知識積累的先驗知識。另一方面,除了視覺元素上低級的識别類任務外,計算機需要對圖像中隐含的上下文資訊進行更深入的了解。動态視覺叙事是指由一組連續的靜态視覺知識組成的、以時間關系或空間關系為序列的知識表達。空間關系表達為場景結構,描述各對象之間的上下、左右、前後等方位關系以及距離關系、裡外關系、大小關系;時間關系表達為動态結構,表達對象的生長、位移、動作、變化、競賽、協同等。

另外,近年來,學術界開始關注示意圖這一種進階的靜态視覺知識。示意圖是一種采用圖形化元素來呈現的視覺表示形式,通常用于表達某些專業領域中特定知識主題或知識概念的内在規則 / 邏輯資訊。示意圖廣泛分布在MOOC網站、開放知識庫、技術論壇等知識源中。對這類特殊圖像的分析與了解是知識庫建構、智能答疑等知識密集型任務的基礎,也是跨媒體智能的重要組成部分。在底層視覺特征方面,示意圖的顔色、紋理、背景等資訊遠不如自然圖像豐富,該視覺特征的稀疏特點導緻在模型訓練階段易出現過拟合、難收斂等問題。在高層語義表達方面,示意圖具有不同于自然圖像的“同形不同義、同義不同形”現象。以圖4為例,“太陽系”與“原子”示意圖的形狀相似但意義完全不同。示意圖的這一現象使了解面臨更為嚴峻的語義鴻溝問題。

大資料知識工程發展現狀及展望丨中國工程科學

圖4 “同形不同義”的示意圖示例

視覺知識理論不僅可以促進跨媒體表達的研究,也可以支撐和提升諸如智能創作、邏輯推理等更為廣泛的人工智能領域的研究和應用。目前,很多研究尚未正式引入視覺知識的概念,同時視覺知識在結構化表示、操作與推理、重建與生成等方面都存在一定的局限性。

2. 常識知識擷取

常識知識指人們對現實世界中不同僚物間的聯系達成的有效共識,涵蓋大量人類經驗,被廣泛接受、無需解釋和論證。常識知識可以使計算機盡可能像人一樣熟悉所有的事實和資訊并進行推理決策,在機器問答、會話情感識别、故事結尾生成等方面發揮巨大作用。

常識知識具有以下3種特性。

① 概念性,絕大多數常識知識是概念知識,表示某一類事物的共有特征,而非某一實體的獨有特征。

② 一般性,常識知識蘊含的概念被廣泛接受并具有一般性。例如,“人呼吸需要氧氣”是常識知識,而“細胞膜的組成需要膽固醇”隻是被特定領域的專家所知,更具有專業性,是以不是常識知識。

③ 隐含性,常識知識是普遍共享的,在人們的口頭或書面交流中通常被省略。常識知識的類型表現非常多樣。例如,ConceptNet、ATOMIC是典型的常識知識圖譜,它們将常識知識表示為關系三元組,并把這些關系三元組組織成網絡結構。以WordNet、Roget為代表的詞彙資料庫是按照一定規則需求由知識專家人工編撰建構的知識源,也是常識知識。BERT等預訓練語言模型也被認為是常識知識的一種表達形式。這些模型通常基于大型語料庫訓練得到,可以有效地捕獲句法特征、語義資訊和事實知識。在自然語言處理的相關研究中,上述常識知識可作為背景語義,顯著增強上下文語義資訊;在計算機視覺相關研究中,常識知識可以改善導航、操縱、識别等各項下遊任務的性能,進而實作真正意義的人工智能。

對常識知識的認知水準不足仍是人工智能發展的重要瓶頸。常識知識是多元化的,包括但不限于直覺、心理、視覺、情感等多種形式以及文本、圖像、語音等多種模态。是以,如何将跨語言、跨模态的多源資料中對某一事件、概念及關系要素進行連結與融合,以獲得豐富的常識知識和表示将是一個重要研究方向。另外,目前的大規模常識庫雖然包含了人類的一些情緒狀态、隐含語義和可能行為等,但很少強調人類在日常生活中廣泛采用的社互動動模式,如怎樣以同理心的方式回應别人等。是以,如何利用網絡上豐富的動态對話資源來建構社交常識知識庫以更有利于各類機器對話、問答、聊天等下遊任務的建設,是一個重要的研究方向。

(二)知識表征

在海量标注資料和超強計算能力的推動下,現有知識工程技術在衆多領域與任務上的性能已經全面接近甚至超越了人類。然而,知識表征技術仍然存在模型複雜度高和可解釋性差等現實挑戰。具體表現為:首先,深層表征和推理模型結構複雜、參數量龐大、訓練難度極大。例如,文本表征模型GPT-3包含超過1700億個内部參數,使用了45 TB資料來訓練。其次,大多數深層表征模型都屬于黑盒模型,難以對模型内部機制和結果進行了解,其對應的優化方案也無法明确。

與之相比,人類生來就具備對知識進行編碼和記憶的能力,這依托于人類大腦複雜的結構與機制。人腦可以自主地表征知識、歸納學習、推理知識,并可以并行執行多項不相關的任務;此外,相比于知識工程技術所需的龐大計算成本,人腦能夠做到在保持相對較高效率的同時維持低能耗。是以,人類大腦仍然是目前唯一的真正智能系統,學習大腦的各項複雜機制,建立更強大和更通用的知識表征模型是非常有前景的。接下來,介紹大腦在知識表征與序列記憶處理方面的最新進展,為大資料知識表征技術的下一步發展方向提供借鑒。

知識在大腦中如何表征一直是科學研究的前沿問題。認知神經科學家已經證明,空間位置資訊和抽象知識資訊在大腦中都是以認知地圖的形式存儲在海馬體中的。為了探究複雜活動中大腦的知識編碼機制,如同時涉及空間位置變化和抽象認知變量的任務,有研究建構了小鼠在執行認知決策任務時背側海馬1區的神經活動空間。實驗結果表明,神經元對空間位置資訊和抽象認知變量的編碼是同時進行的,且互相依存。此外,通過神經流形空間對虛拟場景下小鼠在運動狀态時的群體神經元活動進行降維,發現海馬體神經元群體活動對空間位置資訊和抽象認知變量的表征都呈現出很強的幾何結構特點;同時,這些表征知識的幾何結構特定于具體的任務而存在。最後,研究還發現,富含抽象認知資訊的神經元能夠讓生物做出預測和判斷行為。這項研究揭示了大腦中複雜知識的表征具有明顯的幾何結構特點。是以,在設計新的知識表征模型時,可以借鑒流形學習方法對低維空間中表征的知識進行結構判斷與評價,以提高模型的知識表征能力。

人類大腦無時無刻不在處理序列資訊,不論是語言溝通、動作實施還是情景記憶,本質上都涉及對時序資訊的表征,是以序列記憶是大腦的一項基本認知功能。為了探究時序記憶編碼問題,在最新研究中,研究人員利用在體雙光子鈣成像技術,記錄了猕猴外側前額葉皮層(負責工作記憶的區域)上數千個神經元的活動。實驗結果表明,每個次序的資訊都可以為其在高維的鈣成像資料中找到一個對應的二維子空間。在每個子空間中,每個點所處的位置與猕猴看到的真實六邊形結構相對應;而且3個不同次序的資訊對應的子空間彼此接近正交,即序列中的每個資訊在大腦中都有獨立的存儲空間。此外,研究人員還發現,靠後次序資訊的子空間中六邊形環狀結構的半徑小于靠前的次序空間,這一結構也對應了序列記憶的行為表現,即生活中要記憶的内容越多,越往後的資訊越容易出錯。這項序列工作記憶研究揭示了大腦神經元存儲序列記憶的編碼機制,其對應了一種将不同次序子空間内的結構資訊嵌入高維向量空間的表征方式,将對腦啟發的知識編碼與記憶提供重要的借鑒。

(三)知識推理

伴随深度學習的發展,知識推理模型的設計越來越複雜,并被廣泛應用于諸多領域。實踐表明,這些複雜模型在推理速度、精度以及穩定性上都已超越人類水準,但仍然面臨一定的挑戰。具體表現為:使用者難以直覺了解模型中的參數、結構以及産生的特征,無法精确掌握模型在推理和決策時的依據。這促使學術界和工業界對新型知識推理架構進行探索。近年來,反事實推理和可解釋推理模型逐漸引起研究人員的重視,成為大資料知識推理技術的下一步發展方向。下面對這兩種推理模型進行介紹,并分析其今後研究方向。

1. 反事實推理

反事實推理又稱反事實思維,指對過去已經發生的事實進行否定和重新表征,建構一種可能性假設的思維活動。反事實邏輯推理能力是人類智能的重要表現之一,在目前人工智能的研究熱潮中,研究者們意識到,具有像人類一樣的因果推斷和反事實推理的能力,是從弱人工智能走向強人工智能的象征。因果關系具有自下而上的3個層次,分别是關聯、幹預和反事實。反事實處于“因果關系之梯”的最頂層,如圖5所示。

大資料知識工程發展現狀及展望丨中國工程科學

圖5 因果關系之梯

反事實推理需要基于觀測資料執行,為此,研究者們設計了多種反事實推理架構,其中最為著名的是潛在結果架構(POF)和結構因果模型(SCM)。POF借鑒了統計學中的随機對照試驗和潛在結果的概念,建構了基于因果推斷的分析架構,其核心思想是“沒有假設就沒有因果”,即如果現實情況不能滿足基本假設,潛在結果的結論就不成立。POF中常用的3個基本假設為:研究對象幹預值穩定假設、可忽略性假設以及正值假設。在這3個假設基礎上,研究者們設計出對應的因果推理方法如比對法、逆機率權重法以及分層方法等。SCM則是通過建構因果圖與結構方程,探究反事實因果關系。在該體系下,因果關系的推斷依托于有向無環圖的3種基本路徑結構:鍊狀結構、叉狀結構和對撞結構。3種結構各有不同的資訊傳遞方式,所有的因果圖均能拆解為這3種結構的組合。SCM通過對變量間的因果關系參數化,并利用結構方程模型做推理。

在因果推斷與大資料知識工程兩個領域呈現交織融合的背景下,反事實推理也在大資料知識工程領域發展迅速,并在視覺問答(利用反事實推理消除語言偏差)、重複問題識别(利用反事實推理取代傳統統計量分析)等任務領域等取得了成功。盡管如此,基于反事實推理的通用理論體系仍未建立,如何有效整合實際資料、明确評價名額和目的,如何基于多模态資料設計可拓展的推理模型等問題亟待解決。

2. 可解釋推理

近年來,可解釋推理已成為學術界和工業界的研究熱點。然而,對于可解釋性的定義,目前尚未形成統一認識,一種業界比較認可的定義是:可解釋性是一種以人類知識、了解的方式給人類提供解釋的能力。在一些低風險情形下(如電影推薦),人們可以不關注模型為何作出這種判斷,但在高風險情形(如自動駕駛、藥物推薦等),除了獲得高準确率的預測結果,模型還必須解釋如何作出目前的預測。這種對模型高可靠性要求進一步提高了對可解釋性研究的需求。

依據解釋産生的方法,可将推理模型大體劃分為兩類:事先解釋和事後解釋。前者主要指利用模型架構自帶的解釋而不借助額外的解釋方法;後者主要指利用不依賴于模型自身的解釋方法對推理結果進行解釋。若一種方法可以解釋黑盒模型,那麼該方法可以:

① 利用透明模型(如決策樹、規則清單及線性模型等)近似模型推理的過程;

② 能夠對模型基于特定樣例進行預測并作出解釋;

③ 能夠了解模型内部的特定屬性(如深度神經網絡中神經元在某一決策中的作用)。值得注意的是,事後解釋方法也可用于事前解釋方法中。

盡管目前可解釋推理模型在醫療(如臨床決策支援系統)、金融(如偷稅 / 逃稅 / 騙稅檢測)、交通(如自動感覺 / 控制 / 決策)等民生領域展示出良好潛力,但總體研究還處于起步階段,仍面臨諸多挑戰。例如,推理模型性能不足;一些表現較好的推理模型與領域強相關,可拓展性差;如何在同一任務 / 場景下,評判不同可解釋性方法的優劣等。對這些問題的突破将推動可解釋性推理的快速發展。

四、大陸大資料知識工程發展建議

(一)多學科交叉融合,推動大資料知識工程的理論與技術攻關

多學科交叉融合是科技創新和理論創造的重要源泉,能夠推動大陸大資料知識工程技術的高品質發展。首先,建設大資料知識工程前沿交叉研究特區,設立大資料知識工程的重大 / 重點研發專項。以大資料知識工程相關聯合實驗室建設為抓手,促進計算機科學、人工智能與其他學科的深度交叉融合。其次,為學科交叉融合提供強有力的體制機制保障。做好學科交叉的頂層規劃,理順交叉學科學位授予機制體制,成立學科交叉服務平台,探索新興交叉學科的評價方法。

(二)建立大資料知識工程的行業标準體系

大資料知識工程相關術語和适用準則等标準的建立是衡量行業技術發展水準的重要标志,是創新發展的引領和推動力量。首先,通過加強溝通、深化合作,整合并充分利用國内外大資料知識工程相關企業、研究機構的優勢資源,重點突破知識擷取、融合、表征、推理技術等。其次,推廣相關的前沿研究成果,形成應用示範效應,打造行業應用标杆,優選出市場認可的通用标準和規範,進而促進行業技術标準體系的不斷發展與完善。

(三)以需求為牽引,推動大資料知識工程在各個行業的工程應用

以大資料知識工程理論和技術攻關以及行業标準制定為契機,面向市場需求,打造基于“基礎研究 ‒ 技術創新 ‒ 産業化”路徑的“産學研”協同發展機制。首先,在高校及科研機構層面,發揮辦學特色,集合院校優勢學科,探索符合時代以及市場需求的校企協同育人模式。同時,在大資料知識工程及其應用技術方向投入相關資源,制定并完善相應的人才培養方案,增強技術推廣過程中應用型人才的培育,注重培養學生的創新潛能。其次,在企業層面,緊扣市場需求,深化市場調研并積極布局,瞄準國際領先的發展目标,堅持以應用為主導開展研發,前瞻論證大資料知識工程交叉領域創新性研究的重點方向,通過示範效應帶動整個産業鍊的深化拓展。

注:本文内容呈現略有調整,若需可檢視原文。

大資料知識工程發展現狀及展望丨中國工程科學

注:論文反映的是研究成果進展,不代表《中國工程科學》雜志社的觀點。

繼續閱讀