大資料面臨的風險和現存問題

摘要

“大資料”無疑是當下的熱門術語，提及資料分析必談大資料，這是對大資料和資料分析的雙重誤解，面對一個流行概念本身所許諾的前景和它所代表的商業利益，學界應保持高度的真誠和懷疑。本文發表于《廣告大觀(理論版)》2013年03期，作者結合多年的資料分析經驗，就大資料面臨的風險和現存問題做一個說明，并希望從大資料本身的特性出發讨論它對業界和科學研究的影響，希望能引發更多思考和讨論。——劉德寰[1] 李雪蓮[2]

“大資料”成為2012年的關鍵詞彙，被認為将會帶來生活、工作與思維的重大變革。谷歌、亞馬遜等網際網路企業在利用大資料方面所做的工作使資料行業看到了新的發展路徑。大資料在教育、醫療、汽車、服務性行業的應用所彰顯的能量使企業、研究者對大資料的未來充滿信心。《連線》雜志主編克裡斯·安德森甚至早在2008年就斷言資料洪流将會帶來理論的終結，科學方法将會過時，其原話是“面對大規模資料，科學家“假設、模型、檢驗”的方法變得過時了”。[3]

技術的變遷在任何行業都是值得歡欣鼓舞的，但不妨在此處借用蘇珊·朗格在《哲學新視野》中的論述表達一點謹慎：

某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題，是以，它們似乎有希望解決所有基本問題，澄清所有不明了的疑點。每個人都想迅速的抓住它們，作為進入某種新實證科學的法寶，作為可用來建構一個綜合分析體系的概念軸心。這種‘宏大概念’突然流行起來，一時間把所有東西都擠到了一邊。[4][5]

蘇珊·朗格認為這是由于“所有敏感而活躍的人都立即緻力于對它進行開發這個事實造成的”，這一論述放置在今日對大資料的狂熱崇拜之中也極為恰當，大資料的流行并不意味着其它的了解與思考方式就不再适合存在，正如微軟的Mundie先生所說，“以資料為中心的經濟還處于發展初期，你可以看到它的輪廓，但它的技術上的、基礎結構的、甚至商業模型的影響還沒有被完全了解。”但不可否認的是人們确實将更多的學術興趣轉移到這一領域，而一旦人們能夠以審慎的思路開始清晰的闡述它們，即便一時不能提供完美的解決方案，至少也是能讓人有所獲益的途徑。

人們在談論大資料的美好圖景時當然沒有完全忘記它可能帶來的風險，但擔憂多集中于大資料的後果，如資訊安全，而沒有集中于如何看待大資料本身。本文将就目前尤其國内技術環境下，進入大資料時代所面臨的風險和存在的問題做簡要分析，以希望能厘清概念，澄清一些誤解。

大資料的面臨的風險主要表現在以下幾方面：

一、海量資料的計算速度

零售業巨頭沃爾瑪每小時處理超過一百萬客戶交易，輸入資料庫中的資料預計超過2.5PB(拍位元組，2的50次方)——相當于美國國會圖書館書籍存量的167倍，通信系統制造商思科預計，到2013年網際網路上流動的資料量每年将達到667EB(艾位元組，2的60次方)[6]，資料增長的速度将持續超過承載其傳送的網絡發展速度。

來自淘寶的資料統計顯示，他們一天産生的資料量即可達到甚至超過30TB，這僅僅是一家網際網路公司一日之内的資料量，處理如此體量的資料，首先面臨的就是技術方面的問題。海量的交易資料、互動資料使得大資料在規模和複雜程度上超出了常用技術按照合理的成本和時限抓取、存儲及分析這些資料集的能力。

現在談到大資料，難以避免言必稱美國的傾向，那麼美國究竟如何應對這這方面的問題呢?

美國政府六個部門啟動的大資料研究計劃中，包括：

• DARPA的大資料研究項目：多尺度異常檢測項目，旨在解決大規模資料集的異常檢測和特征化;網絡内部威脅計劃，旨在通過分析傳感器和其他來源的資訊，進行網絡威脅和非正常戰争行為的自動識别; Machine Reading項目，旨在實作人工智能的應用和發展學習系統，對自然文本進行知識插入。

• NSF的大資料研究内容：從大量、多樣、分散和異構的資料集中提取有用資訊的核心技術;開發一種以統一的理論架構為原則的統計方法和可伸縮的網絡模型算法，以差別适合随機性網絡的方法。

• 國家人文基金會(NEH)項目包括：分析大資料的變化對人文社會科學的影響，如數字化的書籍和報紙資料庫，從網絡搜尋，傳感器和手機記錄交易資料。

• 能源部(DOE)的大資料研究項目包括：機器學習、資料流的實時分析、非線性随機的資料縮減技術和可擴充的統計分析技術。[7]

從這份研究計劃可以看出，絕大多數研究項目都是應對大資料帶來的技術挑戰，目前我們所使用的資料庫技術誕生于上世紀70年代，大資料時代首先需要解決的是整個IT結構的重新架構，提升對不斷增長的海量資料的存儲、處理能力。

筆者最早進入資料分析領域是在1986年，使用的機器是長城，520，小的IBM機器，在完成資料輸入、問卷輸入之後，做一個最簡單的指令操作，需要等三個小時之後才能出結果，我們現在面對大資料時的處理能力，形象化來講就是當年PC機對小資料的處理能力。

這也就是大資料常和雲計算聯系在一起的原因，實時的大型資料集分析至少需要使用像MapReduce和hadoop那樣的分析技術并有數千台電腦同時工作，因為想做到實時分析，需要在資料庫中空出分析工作空間，控制對資源和資料的通路，同時不影響生産系統。[8]在現有的技術條件下談大資料需要充分考慮到硬體設施和分析技術的不足，因為這是前提，這也正是資料中心成為谷歌、亞馬遜最高機密的原因，Facebook的開源硬體計劃得到衆多企業包括國内的騰訊響應的積極響應也是基于這方面的現實需要。

二、海量資料帶來的風險是處處都是假規律

“如果隻就人類的認識是零星、細小的而言，小之中蘊含着智慧，因為人類的認識更多的是依靠實驗，而不是依靠了解。最大的危險必然是不顧後果的運用局部知識。”舒馬赫在《小的是美好的》一書中用這段話來表達對核能、農業化學物、運輸技術大規模運用的擔憂，也适用于今日調查行業、企業、研究者對全資料的迷信、忽視抽樣所帶來的風險。

對于海量資料資料的計算能力随着分布式緩存、基于MPP的分布式資料庫、分布式檔案系統、各種NoSQL分布式存儲方案等新技術的普及可以解決，但這隻是關于資料處理的第一步(甚至這種處理方式本身都存在很大風險)，還并不是最大的風險，大資料最為嚴重的風險存在于資料分析層面。

(一)資料量的增大，會帶來規律的喪失和嚴重失真

維克托·邁爾-舍恩伯格在其著作《大資料的時代》中也指出這一點，“資料量的大幅增加會造成結果的不準确，一些錯誤的資料會混進資料庫，”[9]此外，大資料的另外一層定義，多樣性，即來源不同的各種資訊混雜在一起會加大資料的混亂程度，統計學者和計算機科學家指出，巨量資料集和細顆粒度的測量會導緻出現“錯誤發現”的風險增加。那種認為假設、檢驗、驗證的科學方法已經過時的論調，正是出于面對大資料時的混亂與迷茫，因為無法處理非結構化的海量資料，從中找出确定性的結論，索性擁抱凱文凱利所稱的混亂。這種想法在某些領域是有效地，比如它可以解釋生物的選擇性，東非草原上植物的選擇過程，但是未必能解釋人，解釋事件過程和背後的規律。

大資料意味着更多的資訊，但同時也意味着更多的虛假關系資訊，斯坦福大學Trevor Hastie教授用‘在一堆稻草裡面找一根針’來比喻大資料時代的資料挖掘，問題是很多稻草長得像針一樣，‘如何找到一根針’是現在資料挖掘的問題上面臨的最大問題，海量資料帶來顯著性檢驗的問題，将使我們很難找到真正的關聯。

我們以一個實際的案例來看一下樣本量不斷增大之後，會出現的問題：

表1 資料量增大之後帶來的顯著性檢驗問題

上表是關于2006年網絡遊戲曆程擴散的回歸分析，當樣本量是5241個的時候，你會發現用一個簡單的線性回歸拟合這個資料，年齡、教育程度、收入這三個變量顯著，當我們把樣本量增加到10482個的時候，發現獨生子女和女性開始顯著，增加到20964個的時候，體制外這個變量也開始顯著，當樣本增加到33萬的時候，所有變量都具有顯著性，這意味着世間萬物都是有聯系的。那麼在這個時候，如果說上億個人呢?樣本大到一定程度的時候，很多結果自然就會變得顯著，會無法進行推論，或者得出虛假的統計學關系。此外，斷裂資料、缺失資料(下文将會進行分析)的存在将會使這種虛假關系随着資料量的增長而增長，我們将很難再接觸到真相。

事實上，真實的規律是這樣的：

體制外

體制内

圖1 2006年網絡遊戲擴散的Logistic回歸

(資料來源：第一象限)

這是網絡遊戲2006年曆程擴散的結果，實際模型是這樣的，通過這個模型我們可以看到：

1. 分教育程度、體制内外不同年齡的人群在遊戲使用上存在顯著差異，可以清晰的看到在2006年網絡遊戲呈現出教育程度主導下的創新擴散規律。

2.在高教育程度人群中，開始向34歲-40歲擴散，呈現大幅增長，并形成一個峰值。

3.在低教育程度群體中，比如高中、國中在年輕群體中迅速擴散，形成一個峰值。

4.在2006年，網絡遊戲從教育程度的幾個角度開始擴散，年齡不再隻是高低之分，而是與教育程度變量綜合形成的效果[10]。我們看到網絡遊戲這種波浪式的擴散過程，不僅可以找到2006年是誰在使用網絡遊戲，也可以用生命周期、家庭周期來解釋原因，而通過對體制内與體制外人群的使用差異分析，又可以展現出工作空間不同所帶來的人的行為差異。當我們把2006年的結果放回網絡遊戲的整個擴散曆程中時，所能看到就已經不再是網絡遊戲本身，而是新技術帶來的社會變遷過程。

對一個社會現象進行客觀深刻準确的分析，對事物的了解需要資料，但更需要分析思維，在大資料時代，理論并非不重要，而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論，而是在處理問題的過程中意識到海量資料所帶來的複雜性，堅持分析方法和理論的不斷創新。

(二)抽樣分析+全資料驗證的分析思路

維克托·邁爾·舍恩伯格在介紹大資料時代的資料分析思維轉變時提到過三個觀點，其中之一是：分析所有的資料，而不再僅僅依靠一小部分資料。全資料一時甚嚣塵上，企業、研究者以為大資料就是全資料，以至于再談抽樣都似乎帶有保守主義色彩，這種看法無疑是對大資料和抽樣二者都存在偏見和不足，而一個風行的詞彙恰恰對于從事這項活動的人來說意味着什麼才是及其重要的，如果認為大資料就是收集所有樣本的資訊，讓資料自己說話，那麼在方法論上就是狹隘的，而這種狹隘卻因為其閃爍着開放、客觀、全面的光芒而被忽視。

這種觀點面臨的第一個風險就是“全資料”在哪裡?資料量達到何種程度時，可以認為是“全”資料?

這裡也涉及了全資料的第二個問題全(暫且假定我們通過人們在谷歌上輸入搜尋條目就找到了真正意義上的全：谷歌利用搜尋記錄而預測到流感爆發的案例被廣為引用以說明資料自會說話，當人們開始在網上搜尋關于感冒的詞彙表明他感染了流感，建立流感與空間、病毒的關系，能夠成功的預測一場流感)[11]資料确實能看到變化，通過變化作出“預測”，但無法解釋變化的影響因素，維克托·邁爾·舍恩伯格對此的回答是：我們要相關性，不要因果關系。這并非是這位作者有選擇的選擇，而是放棄抽樣而直接采用大資料的必然。

維克托·邁爾·舍恩伯格認為可以允許不精确而使用大資料的簡單算法解決問題，而1936年《文學文摘》和蓋洛普在總統選舉預測中的不同表現，至今仍然向我們表明科學、嚴謹抽樣的重要性。《文學文摘》依靠紙媒時代巨大的發行量獲得240萬群眾的資料，而蓋洛普僅在嚴格抽樣基礎上研究了5000人，是“小資料”的複雜算法超過“大資料”的簡單算法的真實案例。

沒有抽樣的拟合，直接面對大資料，将使我們失去對人的了解，對真實規律的追尋，畢竟不是所有的社會事實都一場流感一樣易于預測，況且即便是谷歌被廣為贊譽的流感預測案例也被認為存在問題：在與傳統的流感監測資料比較之後，根據網際網路流感搜尋實時更新的Google流感趨勢被發現明顯高估了流感峰值水準。科學家指出基于搜尋有太多的噪音影響了它的精确度這表明基于社交網絡資料挖掘的流感跟蹤将不是替代而隻能補充傳統的流行病監測網絡。他們正在開發噪音較少的替代跟蹤方法，例如基于Twitter的流感跟蹤隻包含真正病人的文章，而不是轉載的流感新聞報道。[12]

三、封閉資料與斷裂資料

封閉資料和斷裂資料所帶來的問題在第二部分已經提到，它們會産生虛假的統計學關系，影響分析結果的準确性和可檢驗性，下面具體對這兩方面的問題做一個分析。

(一)封閉資料使資料缺乏多樣化

“資料增值的關鍵在于整合，但自由整合的前提是資料的開放。開放資料是指将原始的資料及其相關中繼資料以可以下載下傳的電子格式放在網際網路上，讓其他方自由使用。開放資料和公開資料是兩個不同的概念，公開是資訊層面的，開放是資料庫層面的。開放資料的意義，不僅僅是滿足公民的知情權，更在于讓大資料時代最重要的生産資料資料自由地流動起來，以催生創新，推動知識經濟和網絡經濟的發展。”[13]

開放是大資料的題中之義，也是我國政府、企業在大資料時代必須适應的轉變，而我們目前面臨的情況仍然是一個平台一個資料，資料壁壘造成的局面是：有所有資料，同時又什麼數都缺。

比如在醫療領域，大資料被認為為醫療領域帶來希望 —計算機可以在模仿人類專家在直覺方面更進一步，而不必依賴EBM這樣的小資料集了。醫療資訊體系仍在使用陳舊的資料屏障，在這個體系中，隻有通過稽核的、标準的、被編輯過的資料才能被接收，由于缺乏一緻性，許多可用的資料被拒之門外。這個屏障創造了同質化的資料，而排除了能使系統真正有用的多樣性。[14]

再以新浪、搜狐、網易、騰訊四大微網誌的資料平台為例，四家公司的資料各自為陣，互相獨立，關于微網誌使用者行為分析都是基于對自己現有使用者的分析，這種封閉的資料環境下，很多層面的具體分析都将受到很大的局限，比如重疊使用者的分析，什麼特征的人群會隻在一個平台上開設賬号，什麼特征的人會在不同平台上都開設賬号，在不同平台上使用風格是否相同，在不同賬号下活躍度是否相同，影響因素是什麼?這是在封閉的資料環境下無法進行分析的。

資料是企業最重要的資産，而且随着資料産業的發展，将會變得更有價值。但封閉的資料環境會阻礙資料價值的實作，對企業應用和研究發現來講都是如此，是以我們需要合理的機制在保護資料安全的情況下開放資料，使資料得到充分利用。有效的解決辦法之一是公正的第三方資料分析公司、研究機構作為中間商收集資料、分析資料，在資料層面打破現實世界的界限，進行多家公司的資料共享而不是一家公司盲人摸象，這才能實作真正意義上的大資料，賦予資料更廣闊全面的分析空間，才會對産業結構和資料分析本身産生思維轉變和有意義的變革。

(二)斷裂資料使資料缺乏結構化

封閉資料使我們無法看到多樣化的資料，斷裂資料則使資料缺乏結構化。來自IDC的報告顯示，2012年全球數字資訊中90%的資料都是視訊、聲音和圖像檔案這樣的非結構化資料[15]，缺乏結構化本身是可以通過新技術解決的問題，正因為如此才使這個問題變得棘手。對新技術的過分追逐，一方面會使得資料本身的真實性、完整性遭到破壞，另一方面會使對資料背後的人和生活意義的分析得不到充分重視。

1.行為背後看不見人，缺失生活意義。

以淘寶為例，當淘寶想研究“究竟是什麼人”在淘寶上開店的時候，他們發現并不像想象中的那麼容易。

在淘寶公司的實時地圖上，可以利用GPS系統清晰的知道每一秒全國各地正在發生的交易，但是對于這些人的族群特征，實時地圖并不能告訴他們更多。[16]同樣的問題出現在騰訊遊戲部門的使用者研究中，他們并不能從實時的監測中知道是誰在玩他們的遊戲，他們有什麼愛好、是什麼性格、為什麼喜歡一款遊戲?他們知道的隻是一個ID賬号，這就是斷裂資料帶來的問題：表面上全面，實際上都是片段式的資料。全資料确實可以在一定程度上掌握人的行為，但是無法知道是什麼樣的人的行為。明白這一點，就可以了解為什麼谷歌會推出Google+，以擷取具體的使用者資訊，包括姓名、愛好、朋友、身份等具體資料。任何一個平台都有其資料收集方面的優勢，也有其短闆，表面上擁有海量資料，但其實都隻是一個片段，缺乏連續性和可識别性。

巴拉巴西在《爆發》中介紹了一個網站LifeLinear，使用者通過在搜尋框中輸入自己的名字就可以查到自己一天任何時間任何地點的監控錄像，無論在哪兒，你的行蹤都會被網站記錄下來。這是作者虛拟的一個網站，但信以為真并輸入網站名字進行搜尋的人不在少數，因為理論上它是可以實作的，一是借助城市中的無線監視系統，回報資料到單條檢索資料庫中，訓示計算機追蹤所有的人。二是，也是最為關鍵的是每個人都有固定的生活習慣、行為規律，系統可以據此為每個人建立行為模型，然後預測你可能出現的地方，并在那兒等你。[17]

這樣一個系統的建立依靠技術系統，但更主要的是對每一個個體的全面了解和分析，假設、模型、檢驗缺一不可。在這本書中巴拉巴西介紹的另一位資料公開者，他把自己的位置資料、财産資訊都傳到網上，但是關于這個人你一無所知，因為沒有任何關于他性格、喜好等個性化資訊，是“什麼都有，但什麼都缺”的典型案例。

2.大量的非結構化資料颠覆原來分析的基本範式。

在大資料時代，需要處理的資料不再是傳統意義上的資料，而是文字、圖檔、音頻視訊等種類多樣的資料，大量的非機構化資料對資料分析提出了新的挑戰，因為隻有能被定義的資料才是有價值的資訊。

使用人人網的使用者大概不會陌生，在個人首頁上會出現好友推薦，這很簡單，隻需要分析使用者的好友，找到朋友之間的關聯，就可以找到這一點。但是當人人網需要決定在廣告位上投放何種廣告時，則需要對大量的由使用者産生的文字、照片、分享内容與好友的互動進行分析。海量的非結構化、半結構化資料如何加以結構化并從中找出規律，這需要新的算法、新的分析思維。

四、缺失資料

奧斯卡·王爾德在1894年說，“如今幾乎沒有無用的資訊，這真悲哀。”嚴格的說，他一半都沒有說對。隻有有價值的資料才稱得上資訊，從資料中獲得盡量多的資訊并非易事，随着資料量的擴大，缺失資料産生的比例也會相應擴大，尤其當一個樣本中出現多項缺失時，會加大處理的難度，除了構造模型失之準确之外，還有時間複雜度方面的問題。

對所有大資料來講，分析哪個問題資料量都不夠大，對于所有人來講，資料都是缺失多于正常數。在資料收集和整合過程中采用新技術手段避免這一問題将使這一問題在分析上帶來的分險變得更突出，比如BI公司為了避免資料的不完整性采用快速修複技術整合分散資料，這将使我們失去最原始的真實資料，這使得研究者很容易舍棄與假設不符合的資料，也使驗證結論變得不再可能。

比如雀巢在200個國家出售超過十萬種産品有55萬家供應商，但由于資料庫一團糟它并未形成強大的采購議價優勢。在一次檢查中它發現，在900萬條供應商、客戶和原材料記錄中有差不多一半是過期或重複的，剩下的有三分之一不準确或有缺失。供應商名稱有的簡寫有的不簡寫，産生了重複記錄。[18]這一個案例中就包含了封閉、斷裂、缺失資料的問題。

固然缺失資料可以嘗試通過模糊資料集理論得到解決，但許多研究情境對資料的要求是有确定性的。大資料時代需要的不隻是全資料、海量資料、實時資料，而是真正的開放、更可能接近精确、着眼于人和社會的分析方法和思路。封閉的資料平台，對斷裂資料、缺失資料在分析上構成的風險的忽視會使我們仍然停留在小資料時代，更糟糕的是，資料還在小資料時代，方法上卻已經在單純鼓吹各種應對大資料的新技術，這種不比對造成的混亂比大資料本身帶來的混亂還要危險。

在一定意義上，我們可以運用已收集的資料，先來了解如何把事情做得更好。從這個角度上，我們再來考慮創新和大資料應用。畢竟，大資料産生影響的不隻是通過協同過濾技術來預測你需要什麼産品，也不隻是什麼時候買機票會更劃算一些，這隻是使人類和商業變得更聰明有趣的一個方面而已，紐約大學商務教授Sinan Aral說：“科學革命之前通常是測量工具的革命”，[19]大資料如此洶湧的發展之勢和席卷一切的雄心勢必将會影響到科學理論研究領域，這也是為什麼我們需要保持一點冷靜和審慎判斷的原因。此外，大資料在推動資訊共享，促進社會進步方面顯示出來的潛力也值得我們為更完美的解決方案努力。

誠如格爾茲所說：“熱力學第二原理、自然選擇原理、無意識動機概念，或生産方式的組織并沒有說明所有的東西，甚至連人的事情都沒有一一說明，但他們畢竟解釋了某些事物;認識到這一點，我們的注意力也就轉向确定這些事物到底是什麼，轉向使我們擺脫這些觀念在其最盛極一時之際導緻的大量僞科學的纏繞。”在文章的最後，借用格爾茲在《文化的解釋》提出的觀點，表達對大資料研究的看法，因為時至今日，大資料這個概念的模糊之處仍多于其所昭示的，可待完善與研究之處仍然很多，我們的工作才剛開始。

本文作者：佚名

來源：51CTO

大資料面臨的風險和現存問題

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希