《大資料管理概論》一第2章‖大資料融合2.1　引言

2021-11-08 06:03:49

大資料時代人們面臨的最根本挑戰是從資料中凝練可領悟的知識［10,11］，

其關鍵技術是資料的內建或融合［12］。進入21世紀以來，這些技術已經取得了重大進展，如深網（deep web）資料內建技術［13］、知識庫（knowledge base，kb）技術［14,15］、關聯資料（linked data）內建技術［16］、大資料內建技術［17］等。這些技術在結構化、半結構化、非結構化等各種類型的資料處理上已形成優勢，并廣泛應用于各個領域：①商業領域，如google搜尋引擎借助google知識圖譜［14］、微軟的必應搜尋引擎借助知識庫satori［18］提高檢索品質和檢索效率；②科學領域，如ibm的watson問答系統借助dbpedia［15］、yago［19］、freebase［20］提供語義感覺的問答服務；③專業領域，如生命科學利用bio2rdf［21］、neurocommons ［22］等知識圖譜作問答和決策。

然而，在使用這些已有技術擷取知識時出現了如下問題：①擷取的知識規模宏大，但缺乏可了解性和可實用性。以知識庫為例，如google知識圖譜［14］目前包含多于5億實體和350億條實體間的關系資訊，至少囊括幾千種謂詞，這些謂詞還在不斷增加和變化。要想讓使用者掌握這些謂詞和模式不太現實，是以，當他們面對這些千絲萬縷的關系時，很難從本質上了解和消化這些知識，進而降低了大資料應有的價值。②得到的知識品質有差别［17］，存在不一緻性甚至沖突，尤其是時态型資料，知識的品質更難以有效甄别。并且融合的結果缺乏可解釋性，進而導緻其可靠性受到質疑。③缺乏與領域知識的結合，并且擷取的知識隻處于表層了解，導緻融合結果與實際應用需求存在鴻溝，例如，一些已被發現的表層現象、規律等沒有進一步形成普适機理，使得這種規律性的發現不能有效回報給融合

過程。

經研究發現，引發這些問題的關鍵是大資料在不斷動态演化，并且需要從多個次元、多種粒度進行解釋。此外，資料的組織方式不同得到的知識品質也會有差異，猶如碳原子既可以構成鑽石，也可以構成石墨。是以我們認為當下面臨的一個突出問題是如何有效地融合知識使大資料的價值最大化，此即大資料融合問題，其關鍵是突破上述局限——需要把目标聚焦于大資料新的特征和融合方式。

為此，2.2節給出了大資料融合的概念，并分析了融合需求和融合對象的獨特性。2.3節總結歸納了現有融合範式，并分析對比了這些融合範式的共同點和各自的優缺點，以及面對大資料，這些融合範式存在的共同缺陷，提出适合大資料的新型融合方法論——動态演化的資料融合與多元度、多粒度的知識融合雙環驅動的大資料融合。2.4至2.6節分别探讨大資料融合中資料融合、知識融合和驅動樞紐的内涵、實作方法和技術

難點。

《大資料管理概論》一第2章‖大資料融合2.1　引言

繼續閱讀

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

我做“内網知識星球”一周年總結

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

《大資料管理概論》一第2章‖大資料融合2.1 引言

繼續閱讀

《大資料管理概論》一第2章‖大資料融合2.1　引言