本節書摘來自異步社群《資料科學與大資料分析——資料的發現 分析 可視化與表示》一書中的第1章,第1.1節,作者【美】emc education services(emc教育服務團隊),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視
資料科學與大資料分析——資料的發現 分析 可視化與表示
關鍵概念
大資料概述
分析的實踐狀态
商業智能與資料科學的對比
新大資料生态系統中的關鍵角色
資料科學家
大資料分析案例
産業界、學術界和政府對大資料和進階資料分析的需求已有諸多讨論。随着新資料源的大量出現和更為複雜的分析需求的大量增加,人們開始反思現有的資料架構是否可以發揮大資料分析的優勢。此外,對于大資料的定義以及需要什麼技能來發揮大資料的最大優勢,這在業界也一直存在着較多争論。本章将解釋幾個關鍵的概念,以便讓您了解什麼是大資料、為什麼需要進階分析、資料科學和商業智能(business intelligence)的差別,以及新的大資料生态系統中需要哪些新角色。
資料在以越來越快的速度不斷增長。行動電話、社交媒體和用于醫療診斷的影像技術等新業務,每天都會産生大量的新資料,這些資料都需要存儲到起來供日後使用。此外,裝置和傳感器自動生成的診斷資訊也需要得到實時存儲和處理。應對如此龐大的資料湧入不是一件很容易的事情,更具挑戰的是如何分析這些海量資料,尤其是當這些資料不是傳統的結構化資料時,如何才能識别有意義的模式,并且提取有用的資訊呢?這些海量資料帶來了許多挑戰,同時也為改變商業、政府、科學和人們的日常生活帶來了可能。
下面幾個行業在收集和利用資料方面做的非常出色。
信用卡公司監控其使用者的每一筆交易,并使用從數十億筆業務的進行中獲得的規則,相當精準地識别欺詐交易。
移動營運商分析使用者的呼叫模式,能夠判斷哪些使用者經常和其他移動營運商的使用者聯系。為了避免競争對手通過低價合同來吸引自己的使用者,營運商可以預先為這些使用者提供獎勵,以防止使用者流失。
對于linkedin和facebook這類公司,資料本身就是其主要的産品。這些公司的估值很大部分源于他們收集和托管的資料,随着資料的增長,這些資料的内在價值也會越來越多。
具體來說,大資料具有3個基本特征。
資料體量巨大:大資料的資料體量遠不止成千上萬行,而是動辄幾十億行,數百萬列。
資料類型和結構複雜:大資料反映了各種各樣新的資料源、資料格式和資料結構,包括網頁上留下的數字痕迹和可供後續分析的其他數字資料庫。
新資料的建立和增長速度:大資料能夠描述高速資料,快速地采集資料和近乎實時地分析資料。
盡管大資料的體量最受人們關注,通常來講,資料的種類和速度卻能更貼切地定義大資料(業界将大資料歸納為3個v:數量[volume]、種類[variety]和速度[velocity])。由于其資料結構和資料規模的特點,使用傳統的資料庫或方法已經很難有效地分析大資料了。是以,我們需要新的工具和技術來存儲、管理和實作其商業價值。這些新的工具和技術能夠建立、操縱、管理大型資料集和用來存儲資料集的存儲環境。2011年,麥肯錫釋出的全球報告給大資料下了一個定義:
大資料是具有大規模、分布式、多樣性和/或時效性的資料,這些特點決定了必須采用新的技術架構和分析方法才能有效地挖掘這些新資源的商業價值。
麥肯錫公司《big data: the next frontier for innovation, competition, and productivity》[1]
麥肯錫對大資料的定義表明,公司需要新的資料架構和分析沙盤、新的工具、新的分析方法,以及将多種技能整合到資料科學家的新角色中(這将在1.3節将詳細講解)。圖1.1列舉了大資料洪流的幾個主要來源。

從圖1.1中所列的幾個來源可見,資料創造的速度正在加快。
大資料中增長最快的資料源是社交媒體和基因測序,它們也是非傳統的被用來分析的資料源。
例如,在2012年,facebook全球使用者每秒鐘會釋出700條狀态更新,通過分析這些狀态更新資訊就可以判斷出使用者的政治觀點和潛在的興趣産品,進而有針對性地向使用者投放廣告。比方說,如果某位facebook女性使用者将自己的感情狀況從“單身”改為“定婚”,那麼就可以有針對性地向這位使用者投放婚紗禮服、婚禮策劃或更改名稱這類服務的廣告。
facebook還可以通過建構社交圖來分析使用者彼此之間的互聯關系。在2013年3月,facebook就釋出了一項名叫“搜圖“(graph search)的新功能,使用者和開發人員可以使用該功能來搜尋興趣、愛好和共享位置相似的使用者群。
基因組學也有成功利用大資料的例子。基因測序和人類基因圖譜有助于科學家深入了解人類基因的構成和血統。此外,醫療保健行業也正在試圖預測人的一生中容易生的疾病,然後使用個性化的醫療方法來預防這些疾病或減輕這些疾病的影響。這類測試也會标記不同藥物和醫療用藥的反應,以提高特殊藥物治療的風險意識。
雖然資料增長很快,但是執行資料分析的成本卻在急劇下降。2001年為人類基因測序的成本要1億美金,到2011年該項費用隻需1萬美元,目前該費用還在持續下降。現在,在23andme(見圖1.2)這樣的網站上進行基因分型(genotyping)隻需要不到100美元。雖然基因分型隻是分析基因組的一小部分,并且沒有基因測序那麼細的分析粒度,但還是可以佐證一個事實,那就是資料和複雜的分析正在變得越來越普遍,而且越來越便宜。
社交媒體和基因測序的例子表明,個人群組織都會從分析更為龐大和複雜的資料中受益,而分析這些資料則需要更加強大的分析性能。
大資料可以有多種形式,包括結構化資料和類似财務資料、文本檔案、多媒體檔案和基因定位圖這樣的非結構化資料。不同于傳統資料分析,絕大多數的大資料天生是非結構化資料或者半結構化的資料,因而需要被有别于傳統的技術和工具來處理和分析[2]。分布式計算環境和大規模并行處理(mpp)架構讓資料的并行化采集和分析成為處理這些複雜資料的首選方法。
鑒于此,本節将繼續講解資料的結構。
圖1.3中列出了資料結構的4種類型,未來80%~90%的增長資料都将是非結構化資料類型[2]。雖然從結構上看資料可以被分成四種類型,可是大部分的資料都是混合類型。例如,一個典型的關系型資料庫管理系統(rdbms)可能存儲着軟體支援呼叫中心的呼叫日志。rdmbs可能将呼叫的特征存儲為典型的結構化資料,它具有時間戳、機器類型、問題類型和作業系統等屬性。此外,該系統也可能存儲着非結構化、準結構化或者半結構化資料,例如,從電子郵件故障單、客戶聊天曆史記錄、用來描述技術問題和解決方案的通話記錄,以及客戶通話語音檔案中提取出來的自由格式的呼叫日志資訊。從呼叫中心的非結構化、準結構化或半結構化資料中可以提取甚多洞見。
雖然結構化資料的分析技術已經非常成熟,但是我們還是需要不同的技術來應對半結構化資料(比如xml格式)、準結構化資料(比如點選流)和非結構化資料分析所帶來的新挑戰。
下面給出了4種主要資料結構類型的定義和例子。
結構化資料:資料包括預定義的資料類型、資料格式和資料結構(例如交易資料、線上分析處理[olap]資料集、傳統的rdmbs、csv檔案甚至電子表格)。詳細資訊參考圖1.4。
半結構化資料:有識别模式的文本資料檔案,支援文法分析(例如,有模式定義的和自描述的可擴充标記語言[xml]資料檔案)。詳細資訊參考圖1.5。
準結構化資料:這類文本資料帶有不規則的資料格式,但是可以通過工具規則化(例如,可能包含不一緻的資料值和格式的網頁點選流資料)。詳細情況可參考圖1.6。
非結構化資料:資料沒有固有的結構,例如文本檔案、pdf檔案、圖像和視訊。詳細情況可參考圖1.7。
通路上述3個網站就增加了3個url位址到日志檔案,該日志檔案用于監控使用者計算機或者網絡的使用情況。這3個url網址分别如下所示。
<a href="https://www.google.com/#q=emc+data+science">https://www.google.com/#q=emc+data+science</a>
<a href="https://education.emc.com/guest/campaign/data_science.aspx">https://education.emc.com/guest/campaign/data_science.aspx</a>
<a href="https://education.emc.com/guest/certification/framework/stf/data_science.aspx">https://education.emc.com/guest/certification/framework/stf/data_science.aspx</a>
這3個url組反映了查找emc相關的資料科學資訊的網站和操作。是以,資料科學家通過分析和挖掘相關的點選流,可以發現使用模式,揭開點選之間的關系,以及一個或一組網站上的熱點區域。
本節介紹的四種資料類型有時被歸納為二類:結構化資料和非結構化資料。而大多數組織機構并不習慣處理大資料,特别是那些非結構化資料。是以,下一節将從大資料分析的角度介紹一些常用的技術架構。
電子表格賦予資料行和列的結構,使得商業使用者可以在資料的行和列結構上建立簡單的邏輯,進而建立針對業務問題的分析。建立電子表格非常友善快速,并不需要專門的資料庫管理者教育訓練。電子表格非常便于分享,使用者可以控制所涉及的邏輯。然而,它們的擴散會導緻“真相有許多版本”。換句話說,我們很難确定某個特定使用者是否擁有最相關的電子表格版本(其中具有最新的資料和邏輯)。而且,筆記本丢失或者檔案損壞都可能會造成電子表格内資料和邏輯的丢失。在世界上的許多計算機中都運作着電子表格程式(比如microsoft excel),是以這個挑戰将持續存在。随着資料島的增加,資料集中化的需求比以往任何時候都要更加迫切。
随着資料需求的增長,更多可擴充的資料倉庫解決方案出現了。這些技術使得資料可以被集中管理,可以提供安全性、故障切換和單一存儲倉庫,使用者可以從中擷取到“官方”資料用于财務報表或者其他關鍵任務。單一資料存儲倉庫也便于建立olap多元資料集和商業智能分析工具,可以用來快速通路關系型資料庫管理系統内的一組資料次元。此外,更多的進階功能提供了高性能的深入分析技術,比如回歸和神經網絡。企業資料倉庫(edw)對于報表和商業智能任務都非常關鍵,能夠解決電子表格增生(proliferating)所引起的許多問題,比如在具有多個版本的電子表格中,無法确定哪一個版本是正确的。edw和良好的商業智能戰略從集中管理、備份和保護的資料源中提供了直接的資料提要(data feed)。
雖然企業資料存儲庫和商業智能有許多優點,但是它們都會限制在執行健壯的和探索性資料分析時所需要的靈活性。在edw模型中,it部門或者資料庫管理者(dba)管理和控制資料,資料分析員必須通過it部門來通路和修改資料模式。這會導緻分析員花費更長的時間來獲得資料,大量的時間都浪費在等待審批這類沒有意義的工作上。此外,大多數情況下,edw的規則都會限制分析員建構資料集。是以,經常會用到額外的系統,該系統包含用來建構分析資料集的關鍵資料,并且由使用者在本地管理。一般情況下,it部門都不喜歡無法控制的資料源,因為不像edw,這些資料集是不受管理的,而且也沒有保護和備份。在分析員看來,edw和商業智能解決了資料準确性和可用性的問題,但是也帶來了靈活性和靈活性相關的新問題,這些問題在處理電子表格的時候并不明顯。
分析沙盤(analytic sandbox)是解決這個問題的一種方法,它試圖解決分析員、資料科學家與edw、嚴格管理的企業資料之間的沖突。在此模式下,it部門仍然管理分析沙盤,但是沙盤将進行有針對性的設計,以啟用強大的分析能力,同時還能被集中管理和保護。沙盤也被稱為工作區,旨在使團隊以一種受控的方式來探索更多資料集,通常不用于企業級的财務報表和銷售報告。
很多時候,分析沙盤利用資料庫内處理(in-database processing)式的高性能計算——分析都是在資料庫内部進行。在資料庫内部運作分析可以提供更好的分析性能,因為省去了将資料拷貝到位于其他某地的分析工具的步驟。資料庫内分析(将在第11章進一步讨論)建立同一組織的多個資料源之間的關聯,節省了以個體為基礎建立這些資料提要的時間。用于深入分析的資料庫處理加速了開發和執行一個新分析模型所用的周轉時間,同時減少(但是沒有消除)了與存放在本地“影子”檔案系統中的資料相關的成本。此外,不同于edw中典型的結構化資料,分析沙盤可以容納更多樣性的資料,比如,原始資料、文本資料和其他類型的非結構化資料,而且不會與關鍵的生産資料庫形成幹擾。表1.1簡要地描述了本節提到的資料存儲庫的特征。
在大資料分析項目中,需要考慮幾件事情以確定方法與預期的目标相比對。由于大資料所具有的特征,這些項目長常用于為高價值但是處理複雜度較高的戰略決策提供支援。由于資料量相當大,結構較為複雜,是以在這種環境中使用的技術必須具備疊代性(iterative)和靈活性。快速且複雜的資料分析需要高吞吐量的網絡連接配接,并考慮一個可接受的延遲量。例如,開發一款用于網站的實時産品推薦系統比開發一款近實時推薦系統需要更高的系統需求,因為近實時推薦系統在提供可接受的性能的同時,延遲隻是稍大一點點,但是部署成本更低。我們需要使用不同的方法來應對分析中的挑戰,下一節将繼續讨論這個主題。