天天看點

《大資料管理概論》一2.6 大資料融合的驅動樞紐

資料融合與知識融合是一個互相啟發、互相協調、逐漸融合的過程,兩者之間需要一個紐帶進行銜接,我們把這個銜接紐帶叫做智能晶格。此外,資料融合與知識融合還受一些共同因素的影響,如動态演化性、海量性和高速性,這些因素直接影響融合技術。

智能晶格的本質功能是用于橋接資料融合和知識融合,并對外提供使用接口,它應具備兩個功能。首先,它用于優化知識的結構,友善擷取知識庫不同層次、不同粒度的關系數量和知識結構,可以完成高效的資料存儲、更新和查詢操作。其次,它屬于對知識庫的一種語義關系操作,需要具有自适應性、演化性和可溯源性,與知識庫協調一緻。是以,智能晶格可以認為是一種操作。從資料存儲角度看,它是知識庫的一種實體索引方法,用于實作資料的分層組織;從資料的呈現上看,它是知識庫的不同層次、不同粒度的關系數量和知識結構的概要,為知識融合提供變粒度資料資源。

例如gstore索引[35]利用rdf圖中挖掘出的若幹存儲模式和列存儲技術将rdf資料中滿足這些存儲模式的結構儲存在一起。但是,對于大資料的d&2v特性,還需要根據高階多元關系中路徑語義關系自動地找到關聯資料中路徑模式和自然語言中關系詞彙之間的對應關系來發現存儲模式,自适應學習動态索引的建構方法,優化知識的結構,進而動态建立不同粒度級别的概要圖,并實作智能晶格“上鑽”和“下鑽”的互動式浏覽方法,友善使用者使用不同粒度的資料和了解複雜關聯資料模式。

遷移學習是為解決跨媒體、跨領域、跨學科、跨行業體系的大資料融合問題而提出的,主要針對跨媒體、跨領域的知識學習和跨學科、跨行業體系的知識複用。

1)跨媒體、跨領域的知識學習:大資料融合的對象具有多樣性,它既可以是結構化資料(如表格、清單等)、非結構化資料(如文本、圖檔、視訊等)、半結構化的社會媒體資料(如微網誌、部落格等複雜類型資料),也可以是知識,如規律、模型、機理等,它不僅以多種形式共存,還出現在不同領域,出現了多類型、跨領域融合的現象。針對這種跨領域的多形式資料進行知識融合不是簡單的比對融合,需要充分考慮各種資料形式的特點,同時需要研究它們的差異所在以及如何合理地處理這些差異,這是資料融合面臨的一個挑戰。在知識融合過程中上層機理是相通的,如金融市場呈現出的長期記憶性和社會網絡中注意力流的長期記憶性,它們都呈現出了長期記憶現象。那麼,它們在分析、處理方法上就可以互相借鑒。此外,系統科學從全局、整體出發研究資料的宏觀現象、特征等,與資料庫領域的局部、微觀現象的發現形成互補,可以互相借鑒。這種在知識融合中适合處理多形式資料的跨領域尋找方法使得知識融合更高效。

2)跨學科、跨行業體系的知識複用:大資料融合是為了更好地提供知識服務,其中資料融合提供內建化知識,知識融合在此基礎上進一步了解,以獲得知識的隐性特征、規律,并對其進行驗證、剖析,歸納出知識間呈現的普适性質、現象,甚至是内在機理。那麼如何将一個行業體系中擷取的深度知識、普适機理等,以低廉成本,直覺、快速地應用到其他行業體系中就是一個焦點。一個普遍的想法是:如果出現了類似的情境,可以利用已有的結論提出假設,在相同的環境設定下調整一個或多個變化因素,觀察事态變化以驗證假設。這一過程的核心在于将可控模拟仿真的方法、大資料融合的理論與實際應用相結合,圍繞現實中特定問題,依據大資料融合理論得到的相關曆史知識、經驗,包括規律、性質、機理、現象等,結合特定領域或情境下的知識,通過模拟、仿真的手段,生成相應的可執行方案。是以,可控模拟仿真的方法、大資料融合的理論與實際應用相結合的遷移學習方法将成為大資料時代的一種發展趨勢。

大資料融合過程對使用者透明,缺乏可解釋性和可操作性,并且大資料的海量性和動态演化加大了錯誤恢複的難度,傳統融合方法沒有考慮這一點。是以,必須建立大資料融合的可溯源機制。追溯融合結果的資料來源以及演化過程,以便及時發現和更正錯誤。這一步的關鍵是資料起源的表示以及資料演化中間過程的跟蹤。其中,中間過程包括實體識别和沖突解決過程、知識庫自适應發展過程以及知識推理和深度知識發現過程。

對于資料融合,首先需要建立知識擷取的溯源機制,主要回答每條關聯資料來源于哪個資料源,是經過了哪些操作(如實體、關系和屬性抽取)得到的。這些資料的溯源對于判定資料的可信性非常重要。然後,需要建立實體識别溯源機制,用于跟蹤融合結果由哪些待統一實體産生。最後,建立沖突解決溯源機制,用于處理融合結果元組中的每個值來自于哪些記錄的哪個屬性值以及通過何種沖突解決方法得來。

在知識推演和深度知識發現過程中,不僅需要向使用者傳回系統産生的答案,還需要向使用者展示答案的來源和證據,即需要解決答案來源的“why”“how”“where”“why not”問題。與傳統關系資料庫中的溯源問題基于關系代數的執行路徑分析不同的是,在知識推演和深度知識發現中,多了一個自然語言問題了解的過程。是以在回答這類溯源問題時,需要統一的推理和發現問題執行計劃的表達模型,根據該模型給出溯源的答案。此外,維護溯源機制很花時間和空間,如何提高溯源的查詢性能,同時降低溯源的時空代價也是亟待解決的問題。

制約傳統方法在大資料中使用的3個主要因素是大資料的動态演化性、高速性和海量性(簡稱d&2v)。知識的動态演化貫穿整個大資料融合過程,它影響着資料融合、知識融合的各種技術,是以還需要結合其他方法具體考慮。但是,其中最為重要的兩項工作是:①對動态變化的跟蹤和知識演化的模組化,對于大資料的特殊性,需要考慮變化的複雜模式,如語義關系等,最好能從中挖掘概念模闆以應對資料的高速性和海量性;②應對動态性給資料存儲、索引帶來的挑戰,動态性是影響大資料融合的關鍵因素,亟待解決。

對于海量性和高速性,主要解決的是它們帶來的負面影響,對這兩個因素的處理直接關系到大資料融合的性能和效率。海量性和高速性迫使傳統的多項式時間算法不再适用,需要權衡精度與速度(效率),大緻有4種解決思路:①近似計算,采用近似算法代替原來的精确計算方法;②簡約計算(n->k),通過核資料、采樣等手段實作模型的精簡和算法的快速收斂,達到簡約計算,例如發現全量全模态(n)資料中的核資料(k)進行近似,或者通過采樣實作多重小樣本(k)對全量資料(n)的有效近似;③分治計算(n/k),即通過資料化整為零的手段實作計算的約簡,達到算法層面的橫向擴充(scale out),如網格計算、mapreduce和參數化服務;④增量計算(n->n),即針對資料相對于增量遠小于絕對基數的現象,采用增量計算理論,需要支援流式資料的實時olap分析。除此之外,也可以借助優化硬體技術來支援大資料的處理。

繼續閱讀