大資料
大資料有很多種,但其價值鍊都是由四個部分組成,分别是資料生成、資料采集、資料存儲和和資料分析。
大資料來源廣泛,其噪音、備援、一緻性差的特點,需要抽取式的采集或者整合采集後,再進行資料清洗和去噪,修正處理,然後進行資料分析後,為商業智能、醫療衛生等提供決策支援和預測分析,最終惠及各個行業的使用者。
大資料處理基本流程
一、資料生成
資料生成是大資料的第一步。大資料有着豐富的資料源,可源于企業營運中收集的物流和貿易資訊、物聯網中的資訊、人機互動資訊和網際網路世界中的位置資訊等多種管道。
01企業内容資料
2013年,IBM 釋出分析報告《大資料在現實世界中的應用》(The Applications of Big Data to the Real World),指出企業内部資料是大資料的主要資料源。企業内部資料包含線上交易資料、生産資料、庫存資料、銷售資料和财務資料。企業以資料形式記錄企業活動。對實時性要求高是企業資料的應用場景所要求的,但由于海量的企業資料使得實時處理這些資料變得困難。以亞馬遜、沃爾瑪等企業為例,亞馬遜每天有超過 50 萬個來自第三方買家的查詢,沃爾瑪每小時處理一百萬次客戶交易。
02物聯網資料
物聯網亦是大資料的重要來源。以基于物聯網建構的智慧城市為例,大資料來自工業、農業、交運和衛生等公共部門與家庭等日常生活活動。從物聯網生成的資料同樣具有大規模的特征。由于資料源的多元性,物聯網資料多樣性極強。此外,物聯網資料價值密度通常較低。以交通資料為例,交通事故資料比日常交通資料有價值得多,但交通事故在整體交通資料中隻占非常小的一部分。
03生物醫學領域資料
科研領域也有多種類型的資料生成。生物醫學領域貢獻了海量資料。随着人類基因組計劃(Human Genome Project,HGP)的發展,一種人類基因測序可能會産生十萬級GB 的原始資料。而電子病曆、臨床醫療資料亦迅速增加。2013 年,這一資料就已達 70TB。此外,天文學的天空調查、大型強子對撞機(Large Hadron Collider,LHC)的超環面儀器(ATLAS)實驗等研究也産生海量資料。
二、資料擷取
資料采集是使用特定的資料收集技術從資料源擷取原始資料的方法。常見的資料采集方法為日志檔案、傳感器、采集網絡資料等。其中,網絡資料的采集進一步包含網絡爬蟲(Web Crawler)、分詞系統(Word Segmentation System)、任務系統(Task System)和索引系統(Index System)等方法。
采集到的資料傳輸到統一的存儲設施——資料中心(Data Center),以供進一步處理分析。資料傳輸包含資料中心間網絡(Inter-DCN)和資料中心内部網絡(IntraDCN)兩階段的傳輸。其中,資料中心間網絡的傳輸(Inter-DCN Transmissions)指資料從資料源傳輸到資料中心的過程,而資料中心内部網絡的傳輸(Intra-DCNTransmissions)是資料在資料中心之間流動的過程。
資料擷取面臨兩項挑戰。首先由于大資料複雜性和低價值密度的特點,資料往往有着較大的噪聲、備援,且一緻性差。例如一個傳感器可以收集大量資料,但頻率極低的異常資料的意義和價值大大高于海量的日常資料。是以在資料分析前必須進行資料內建、資料清洗等預處理工作。海量資料的預處理對計算機硬體和算法都是嚴峻的考驗。其次,正确地記錄中繼資料也是一項挑戰。例如科學實驗中,有關特定實驗環境、實驗過程有着數不勝數的細節。由于後續分析依賴前置步驟,有必要記錄資料出處,以識别依賴于該步驟的所有後續處理。是以,研究所學生成合适的中繼資料,并通過資料分析管道攜帶中繼資料及其來源的資料系統就顯得十分重要。
三、資料存儲
海量的資料對存儲和管理提出了更高的要求。目前解決方案有三種,即海量資料存儲系統、分布式存儲系統和大資料存儲機制。
01海量資料存儲系統
海量資料存儲技術引入網絡存儲後,解決了傳統開放系統的直連式存儲(Direct-Attached Storage,DAS)資料庫在存儲容量增加時可更新性與擴充性差的缺點。網絡存儲分為網絡附屬存儲(Network Attached Storage,NAS)和存儲區域網絡(Storage Area Network,SAN)兩種,利用網絡為使用者提供能夠通路和共享資料的接口,并通過特殊的資料交換裝置、磁盤陣列(Disk Array)、閥門庫(Tap Library)或其他存儲媒體、軟體提供強擴充性。
02健康知識科普
傳統關系型的分布式資料庫在大資料時代亦受到挑戰。擴充性有限和 ACID 特性[(ACID:資料庫事務正确執行的四個基本要素,包含原子性(Atomicity)、一緻性(Consistency)、隔離性(Isolation)和持久性(Durability)]下的強一緻性要求使得關系型資料庫不适應大資料場景。以 NoSQL 為代表的新型分布式資料庫則提供了強擴充性,以應對資料量的高速增長。此外,新型的分布式資料庫也能夠滿足各類非結構化資料的存儲。
03大資料存儲機制
對大資料的研究促進了大資料存儲機制的發展,現有的存儲機制自下而上為檔案系統、資料庫和程式設計模型。其中,分布式檔案系統經過多年的發展與商業化,已經相對成熟。資料庫領域,NoSQL 正在變得越來越流行。程式設計模型的代表則由谷歌公司提出的 MapReduce引例。MapRedue 的強大在于使用大的個人計練機(PC農群,實作自動并行處理和分發。
四、資料分析
資料分析是大資料處理流程的核心。許多傳統的資料分析方法仍然可應用于大資料分析,來自統計學、計算機科學的聚類分析、因子分析、相關分析和回歸分析:據挖掘算法、機器學習、模式識别、神經網絡、遺傳算法等多種不同算法在大資料時代也有廣泛應用。以下将對幾種經典的處理方法展開介紹。
資料挖掘(Data Mining)綜合了統計分析中的抽樣、估計和假設檢驗思想,機器學習和模式識别的理論與技術,人工智能、模式識别和模組化技術:從資訊論、最優化可視化、資訊檢索等領域借鑒了思想,目的是提取資料,分析資料并做模型化處理,挖掘出其中隐含的重要資訊。
相關分析是指用支援度、可信度等參數反映相關性。牛津大學網絡學院教授維克多認為,建立在相關關系分析法基礎上的預測是大資料的核心。不同于數學模型傳統的邏輯推理研究方式,大資料側重于相關關系的分析方法,是科研思維上的重大轉變。基于這一特點,圖靈獎得主吉姆·格(Jim Gray)提出資料密集型科研的“第四範式”,将大資料科研從理論、計算、實驗三種科研範式中分離出來,成為新的科研範式。
機器學習算法。出于實時性的需要,有時不得已舍棄部分準确性來取得實時性和準确性的平衡,這種思路的典型代表就是線上的機器學習算法。
大資料的分析結果也存在判斷與展示上的困難性。大資料的分布特點,由于其海量、多元的特征,很難掌握清楚,是以如何衡量資料分析結果亦十分困難,也成為大資料分析的一項重要挑戰。此外,對于海量資料進行資料分析的結果往往也存在結果複雜、多層次等特點。作為呈現資料分析結果的關鍵技術,對資料可視化技術的探索、應用也是以愈發廣泛。典型的可視化技術包括曆史流(History Flow)、标簽雲(Tag Cloud)、空間資訊流(Spatial Information Flow)等。人機互動技術、資料起源技術也提供了解決方案。人機互動技術能夠讓使用者參與分析過程,通過互動式的資料分析過程增進使用者對分析過程的了解與對分析結果的了解;資料起源技術能夠幫助使用者追溯資料的分析過程。
*關注“潔淨園”,擷取更多價值幹貨!