天天看點

《大資料管理概論》一第2章‖大資料融合2.1 引言

大資料時代人們面臨的最根本挑戰是從資料中凝練可領悟的知識[10,11],

其關鍵技術是資料的內建或融合[12]。進入21世紀以來,這些技術已經取得了重大進展,如深網(deep web)資料內建技術[13]、知識庫(knowledge base,kb)技術[14,15]、關聯資料(linked data)內建技術[16]、大資料內建技術[17]等。這些技術在結構化、半結構化、非結構化等各種類型的資料處理上已形成優勢,并廣泛應用于各個領域:①商業領域,如google搜尋引擎借助google知識圖譜[14]、微軟的必應搜尋引擎借助知識庫satori[18]提高檢索品質和檢索效率;②科學領域,如ibm的watson問答系統借助dbpedia[15]、yago[19]、freebase[20]提供語義感覺的問答服務;③專業領域,如生命科學利用bio2rdf[21]、neurocommons [22]等知識圖譜作問答和決策。

然而,在使用這些已有技術擷取知識時出現了如下問題:①擷取的知識規模宏大,但缺乏可了解性和可實用性。以知識庫為例,如google知識圖譜[14]目前包含多于5億實體和350億條實體間的關系資訊,至少囊括幾千種謂詞,這些謂詞還在不斷增加和變化。要想讓使用者掌握這些謂詞和模式不太現實,是以,當他們面對這些千絲萬縷的關系時,很難從本質上了解和消化這些知識,進而降低了大資料應有的價值。②得到的知識品質有差别[17],存在不一緻性甚至沖突,尤其是時态型資料,知識的品質更難以有效甄别。并且融合的結果缺乏可解釋性,進而導緻其可靠性受到質疑。③缺乏與領域知識的結合,并且擷取的知識隻處于表層了解,導緻融合結果與實際應用需求存在鴻溝,例如,一些已被發現的表層現象、規律等沒有進一步形成普适機理,使得這種規律性的發現不能有效回報給融合

過程。

經研究發現,引發這些問題的關鍵是大資料在不斷動态演化,并且需要從多個次元、多種粒度進行解釋。此外,資料的組織方式不同得到的知識品質也會有差異,猶如碳原子既可以構成鑽石,也可以構成石墨。是以我們認為當下面臨的一個突出問題是如何有效地融合知識使大資料的價值最大化,此即大資料融合問題,其關鍵是突破上述局限——需要把目标聚焦于大資料新的特征和融合方式。

為此,2.2節給出了大資料融合的概念,并分析了融合需求和融合對象的獨特性。2.3節總結歸納了現有融合範式,并分析對比了這些融合範式的共同點和各自的優缺點,以及面對大資料,這些融合範式存在的共同缺陷,提出适合大資料的新型融合方法論——動态演化的資料融合與多元度、多粒度的知識融合雙環驅動的大資料融合。2.4至2.6節分别探讨大資料融合中資料融合、知識融合和驅動樞紐的内涵、實作方法和技術

難點。

繼續閱讀