大資料，小資料，哪道才是你的菜？

美國著名科技曆史學家梅爾文•克蘭茲伯格melvin kranzberg曾提出過大名鼎鼎的科技六定律其中第三條定律是這樣的[1]“技術是總是配“套”而來的但這個“套”有大有小technology comes in packages, big and small”。

這個定律用在當下是非常應景的。因為我們正步入一個“大資料big data”時代但對于以往的“小資料small data”我們能做到“事了拂衣去深藏身與名”嗎答案顯然不是。目前大資料的前途似乎“星光燦爛”但小資料的價值依然“風采無限”。克蘭茲伯格的第三定律是告訴我們新技術和老技術的自我革新演變是交織在一起的。大資料和小資料他們“配套而來”共同勾畫資料技術data technologydt時代的未來。

對大資料的“溢美之詞”已被舍恩伯格教授、塗子沛先生等先行者及其追随者誇得泛濫成災。但正如您所知任何事情都有兩面性。在衆人都贊大資料很好的時候我們也需說道說道大資料可能面臨的陷阱隻是為了讓大資料能走得更穩。在大資料的光暈下當漸行漸遠漸無小資料時我們也聊聊小資料之美為的是“大小并行不可偏廢”。大有大的好小有小的妙如同一桌菜哪道才是你的愛思量三番再下筷。

下文部分就是供讀者“思量”的材料主要分為4個部分1哪個v才是大資料最重要的特征在這一部分裡我們聊聊大資料的4v特征中哪個v才是大資料最貼切的特征這是整個文章的行文基礎。2大資料的力量與陷阱。在這一部分我們聊聊大資料整體的力量之美及可能面臨的3個陷阱。3今日王謝堂前燕暫未飛入百姓家在這一部分我們要說明大資料雖然很火但我們用資料發聲用事實說話大資料真的沒有那麼普及小資料目前還是主流。4你若安好便是晴天。在這一部分我們說說的小資料之美如果用“n=all”來代表大資料那麼就可以用“n=me”來說明小資料這裡n表示資料大小我們将會看到小資料更是關系到我們的切身利益。

1.哪個v才是大資料最重要的特征

在談及大資料時人們通常用4v來描述其特征即4個以v為首字母的英文volume大量、variety多樣、velocity速快及value價值。如果 “閑來無事”我們非要對這4個v在“兵器譜”上排排名哪個才是大資料的貼切的特征呢下面我們簡要地說道說道力圖說出點新意分析的結果或許會出乎您的意料之外。

1.1 “大”有不同——volume大量

首先我們來說說大資料的第一個v——volume大量。雖然資料規模巨大且持續保持高速增長通常作為大資料的第一個特征。但事實上早在20年前在當時的it環境下天文、氣象、高能實體、基因工程等領域的科研資料量已是這些領域無法承受的“體積”之痛當時實時計算的難度不比現在小因為那時的存儲計算能力差亦沒有成熟的雲計算架構和充分的計算資源。

況且“大”本身就是一個相對的概念資料的大與小通常都打着很強的時代烙印。為了說明這個觀點讓我們先回顧一下比爾•蓋茨的經典“錯誤”預測。

圖1 比爾蓋茨于1981年對記憶體大小的預測

早在1981年作為當時的it精英比爾蓋茨曾預測說“640kb的記憶體對每個人都應該足夠了640kb ought to be enough for anybody”。但30多年後的今天很多人都會笑話蓋茨這麼聰明的人怎麼會預測地如此不靠譜現在随便一個智能手機或筆記本電腦的記憶體的大小都是4gb、8gb的。

但是需要注意的事實是在1981年當時的個人計算機pc是基于英特爾cpu 8088晶片的這種cpu是基于8/16位bit混合構架的處理器是以640kb已經是這類cpu所能支援的尋址空間的理論極限64kb的10倍[2]換句話說640k在當時是非常非常地龐大了再回到現在目前pc機的cpu基本都是64bit的其理論支援的尋址空間是2^64而現在的4g記憶體僅僅是理論極限的(2^32)/(2^64)= 1/(2^32)而已。

在這裡講這個小故事的原因在于衡量資料大小不能脫離時代背景不能脫離行業特征。此外大資料布道者舍恩伯格教授在其著作《大資料時代》中指出[3]大資料在某種程度上可了解為“全資料即n=all”。有時,一個所謂的“全”資料庫并不需要有以tb/pb計的資料。在有些案例中某個“全”資料庫大小可能還不如一張普通的僅有幾個兆位元組mb數位照片大但相對于以前的“部分”資料這個隻有幾個兆位元組mb大小的“全”資料就是大資料。故此大資料之“大”取義為相對意義而非絕對意義。

這樣看來網際網路巨頭的pb級資料可算是大資料幾個mb的全資料也可算是大資料如此一來大資料之“大”——“大”有不同可大可小如此不“靠譜”反而不能算作大資料最貼切的特征。

1.2 資料共征——“velocity快速”與“value價值”

英特爾中國研究院院長吳甘沙先生曾指出大資料的特征“velocity快速”猶如“天下武功唯快不破”一樣要講究個“快”字。為什麼要“快”因為時間就是金錢。如果說價值是分子那麼時間就是分母分母越小機關價值就越大。面臨同樣大的資料“礦山”“挖礦”效率是競争優勢。

不過青年學者周濤教授卻認為[4]1秒鐘算出來根本就不是大資料的特征因為“算得越快越好”人類自打有計算這件事情以來這個訴求就沒有變化過而現在卻把它作為一個新時代的主要特征完全是無稽之談。筆者也更傾向于這個說法把一個計算上的“通識”要求算作一個新生事物的特征确實欠妥。

類似不妥的還有大資料的另外一個特征——value價值。事實上“資料即價值”的價值觀古來有之。例如在《孫子兵法始計篇》中早就有這樣的論斷“多算勝少算不勝而況于無算乎”此處 “算”乃算籌也也就是計數用的籌碼它講得就是如何利用數字來估計各種因素進而做出決策。

在馬陵之戰中孫膑通過編造“齊軍入魏地為十萬竈明日為五萬竈又明日為三萬竈史記·孫子吳起列傳”的資料利用龐涓的資料分析習慣反其道而用之對龐涓實施誘殺。

話說還有一個關于林彪将軍的段子真假不可考在遼沈戰役中林大将軍通過分析繳獲的短槍與長槍比例、繳獲和擊毀小車與大車比例以及俘虜和擊斃的軍官與士兵的比例“異常”是以得出結論敵人的指揮所就在附近果不其然通過追擊從胡家窩棚逃走的那部分敵人活捉國民黨主帥新六軍軍長廖耀湘。

在戰場上資料的價值——就是輔助決策來獲勝。還有一點值得注意的是在上面的案例中戰場上的資料神機妙算的軍師們都能“掐指一算”——這顯然屬于十足的小資料但網上卻流傳有很多諸如“林彪也玩大資料”、“跟着林彪學習大資料”等類似的文章這就純屬扯淡了。如果凡是有點資料分析思維的案例都歸屬于大資料的話那大資料的案例古往今來可真是數不勝數了。

是以value價值實在不能算是大資料專享的特征“小資料”也是有價值的。在下文第4節的分析中我們可以看到小資料對個人而言“價值”更是不容小觑。這樣一來如果大、小資料都有價值何以“價值”成為大資料的特征呢事實上睿智的ibm在對大資料的特征概括中壓根就沒有“value”這個v如圖2所示。

圖2 ibm公司給出的大資料3v特征圖檔來源disquscdn.com

我們知道所謂“特征”者乃事物異于它物之特點”。打個比方如果我們說“有鼻子有眼是男人的特征”您可能就會覺得不妥“難道女人就沒有鼻子沒有眼睛嗎”是的“有鼻子有眼”是男人和女人的“共征”而非“特征”。同樣的道理velocity 和value這兩個v字頭詞彙是大、小資料都能有的“共征” 實在也不算不上是大資料最貼切的特征。

1.3五彩缤“紛”——variety多樣

通常認為大資料的多樣性variety是指資料種類多樣。其最簡單的種類劃分莫過于分為兩大類結構化的資料和非結構化資料現在“非結構化資料”占到整個資料比例的70%~80%。早期的非結構化資料在企業資料的語境裡可以包括諸如電子郵件、文檔、健康、醫療記錄等非結構化文本。随着網際網路和物聯網internet of thingsiot的快速發展現在的非結構化資料又擴充到諸如網頁、社交媒體、音頻、視訊、圖檔、感覺資料等這诠釋了資料的形式多樣性。

但倘若深究下去就會發現“非結構化”未必是個成立的概念。在資訊中“結構化”是永存的。而所謂的“非結構化”不過是某些結構尚未被人清晰的描述出來而已。it咨詢公司alta plana的進階資料分析師seth grimes曾在it領域著名刊物《資訊周刊》information week撰文指出不存在所謂的非結構化現在所說的“非結構化”應該是非模型化unmodeled結構本在隻是人們處理資料的功力未到未模組化而已most unstructured data is merely unmodeled[5]如圖3所示。

圖3 seth grimes非結構化乎不應是非模組化

大資料的多樣性variety還展現在資料品質的參差不齊上。換句話說這個語境下的多樣性就是混雜性messy即資料裡混有雜質或稱噪音。大資料的混雜性基本上是不可避免的既可能是資料産生者在産生資料過程出現了問題也可能是采集或存儲過程存在問題。如果這些資料噪音是偶然的那麼在大資料中它一定會被更多的正确資料淹沒掉這樣就使得大資料具備一定的容錯性如果噪音存在規律性那麼在具備足夠多的資料後就有機會發現這個規律進而可有規律的“清洗資料”把噪音過濾掉。吳甘沙先生認為[15]多元抑制的資料能夠過濾噪聲、去僞存真即為辯訛。更多有關混雜性的精彩描述讀者還可批判性地參閱舍恩伯格教授的大著《大資料時代》[3]。

事實上大資料的多樣性variety最重要的一面還是表現在資料的來源多和用途多上。每一種資料來源都有其一定的片面性和局限性隻有融合、內建多方面的資料才能反映事物的全貌。事物的本質和規律隐藏在各種原始資料的互相關聯之中。對同一個問題不同的資料能提供互補資訊可對問題有更為深入的了解。是以在大資料分析中彙集盡量多種來源的資料是關鍵。中國工程院李國傑院士認為[6]這非常類似于錢學森老先生提出的“大成智慧學”“必集大成才能得智慧”。

著名曆史學家許倬雲先生站在曆史的高度也給出了自己的觀點他說“大資料”之是以能稱之為“大資料”就在于其将各種分散的資料彼此聯系由點而線由線而面由面而層次以瞻見更完整的覆寫面也更清楚地了解事物的本質和未來取向。

英國數學家及人類學家托馬斯·克倫普thomas crump在其著作《數字人類學》(the anthropology of numbers指出[7]資料的本質是人分析資料就是在分析人類族群自身資料背後一定要還原為人。東南大學知名哲學教授呂乃基先生認為[8]雖然每個資料來源因其單項而顯得模糊然而由“無限的模糊”所帶來的聚焦成像會比“有限的精确”更準确。“人是社會關系的總和馬克思語”。大資料利用自己的“多樣性”比以往任何時候都趨于揭示這樣的“總和”。

是以李國傑院士認為[6]資料的開放共享提供了多種來源的資料融合機會它不是錦上添花的事而是決定大資料成敗的必要前提。

從上分析可見雖然大資料有很多特征甚至有人整出11個v來但大資料的多樣性variety無疑它是區分以往小資料的最重要特征。

2.大資料的力量與陷阱

大資料的多樣性給大資料分析帶來了龐大的力量但這個多樣性也帶來了大資料的陷阱下面我們就聊聊這個話題。

2.1 大資料的力量

很多小機率、大影響的事件即黑天鵝事件在單一的小資料環境下很可能難以發現。但是由“八方來客”彙集而來的大資料卻能有機會提供更為深刻的洞察insight。例如癌症屬于一類長尾病症經過多少年努力癌症治愈率僅提升了不到8%。其中一個重要原因是單個癌症的診療機構的癌症基因組樣本都相對有限。“小樣本”得出的研究結論得出有關“癌症診斷”的結論極有可能是“盲人摸象化”的[9]。

于是英特爾公司提出的“資料咖啡館”概念吳甘沙先生做了一個形象的類比他說咖啡館的好處在于“let ideas have sex”而大資料産生價值、爆發力量的關鍵是“let data have sex”。取意如此資料咖啡館”的核心理念在于把不同醫療機構的癌症診療資料彙聚到一起形成大資料集合但不同機構間的資料“相逢但不相識”。讓多源頭的“小資料”彙集起來可實作資料之間“1+1>2”的價值。對多資料融合用“have sex”這個比喻是非常有意思的因為倘若你真想要達到“1+1> 2”的效果就不能帶着“套子”擋着就要打破“資料流的割據”。難怪李院士一直強調資料的流通性是決定大資料成敗的前提還是真的純屬調侃不可較真

類似的2014年美國總統辦公室釋出了題為“大資料抓住機遇留住價值big data:seizing opportunities, preserving values”的報告[10]文中列舉了一個案例

broad 研究院這是一個由麻省理工學院和哈佛大學聯合創辦的世界著名的基因研究機構的研究人員發現海量的基因資料在識别遺傳變異對疾病的意義中有着及其重要的作用。在這個研究中當樣本數量是 3,500 時與精神分裂症有關的遺傳變異根本無法檢測出來當使用 10,000 個樣本時也隻能有細微的識别但是當樣本達到 35,000 時統計學上的統計顯著性statistically significant便突然顯示出來。正如一個研究人員所觀察到的那樣“跨越拐點一切皆變there is aninflection point at which everything changes”[11]如圖4所示。從這個案例中大資料把哲學中的“量變引發質變”演繹得淋漓盡緻。

圖4 精神分裂症有關的遺傳變異發現——大資料的“彙集”的力量圖中loci表示“基因座”又稱座位它基因在染色體上所占的位置。在分子水準上是有遺傳效應的dna序列。圖檔來源mit

2.2 大資料的陷阱

大資料的多樣性帶人們來了“兼聽則明”的智慧。然而正如英諺所雲:“一個硬币有兩面every coin has two sides” 這個多樣性也會帶來一些不宜察覺的“陷阱”。用“成也蕭何敗也蕭何”來描述大資料的兩難再恰當不過了。

2.2.1 dikw金字塔體系

1989年管理學家羅素·艾可夫russell .l. ackoff撰寫了《從資料到智慧》from data to wisdom系統地建構了dikw體系[12]即從低到高依次為資料data、資訊information、知識knowledge及智慧wisdom。美國學者澤萊尼zeleny提出了4個know知道比喻[12]比較形象地區分了dikw體系中的元素如圖5所示。

圖5 澤萊尼對dikw體系中的4個know比拟

澤萊尼對dikw體系的注解讓人感觸最深的可能在于資料如果不實施進一步地處理即使收集資料的容量再“大”也毫無價值因為僅僅就資料本身它們是“一無所知(know-nothing)”的。資料最大的價值在于形成資訊變成知識乃至升華為智慧。

舍恩伯格教授在其大作《大資料時代》有個核心觀點是“要相關不要因果”即知道“是什麼”就夠了沒必要知道“為什麼”。但從dikw體系可知如果放棄“為什麼”的追尋事實上就放棄了對金字塔的最頂端——智慧wisdom的追求——而智慧正是人類和機器最本質的差別。

對此青年學者周濤教授總結得非常精彩“放棄對因果性的追求就是放棄了人類淩駕于計算機之上的智力優勢是人類自身的放縱和堕落。如果未來某一天機器和計算完全接管了這個世界那麼這種放棄就是末日之始”。對大資料的因果性和相關性的探讨我們已經在《來自大資料的反思需要你讀懂的10個小故事》一文中[14]已有涉及在此不再贅言下面我們想探讨的是事實上對因果關系的追尋是人類慣有的思維在這個慣性思維推動下很容易誤把“相關”當“因果”——這是我們需要警惕的大資料陷阱。

2.2.2 誤把“相關”當“因果”

所謂“相關性”是指兩個或兩個以上變量的取值之間存在某種規律性。兩個變量a和b有相關性隻反映a和b在取值時互相有影響但并不能說明因為有a就一定有b或者反過來因為有b就一定有a。

在上面的論述中似乎我們一直在說“相關性”的不足。而事實上需要說明的是相關性在很多場合是極其有用的。例如在大批量的小決策上相關性就是有用的亞馬遜的電子商務個性化推薦就是利用相關性給無數顧客推薦相關的或類似商品這樣顧客找起商品友善多了亞馬遜也落得個賺得缽滿盆滿。

然而對于小批量的大決策對因果關系的追求依然是非常重要的。吳甘沙先生用“中西藥”藥方做類比給出了一個很精彩的例子用來說明相關性和因果性的關系[15]。對于中藥處方而言多是“神農嘗百草”式的經驗處方目前僅僅到達知道“相關性”這一步但它沒有可解釋性無法得出是那些樹皮和蟲殼的因為什麼就是導緻某些病能治愈的果換句話說中藥僅僅到了“知其然”階段追求“是什麼”如果我們的國粹止步于“知其是以然”追求“為什麼”那麼中醫想要走出中國面向世界是非常困難的注筆者曾是中醫的受益者請不要誤判是在黑中醫。

而西藥則不同在發現相關性後并沒有止步而是進一步要做随機對照試驗把所有可能導緻“治愈的果”的幹擾因素排除獲得因果性和可解釋性。在商業決策上也是類似相關性隻是決策的開始它取代了拍腦袋、依靠直覺獲得的假設而後面驗證因果性的過程仍然是重要。

在大資料時代“相關性”被很多大資料粉絲奉為圭臬。前文也提到“相關性”也的确有用但有時“金剛經”會被唱成“經剛金”差之毫厘謬以千裡很多時候人們會不自覺地把“相關性”不自覺地當作“因果性”。

加拿大萊橋大學管理學院鮑勇劍教授指出[16]在大資料時代隻要有超大樣本和超多變量我們都可能找到無厘頭式的相關性。美國政府每年公布4.5萬類經濟資料。如果你要找失業率和利率受什麼變量影響你可以羅列10億個假設。隻要你反複嘗試不同的模型上千次後你一定可以找到統計學意義上成立的相關性。下面我們講幾個小故事段子來說明這個觀點。

在小資料時代的1992年香港人拍了一個電視連續劇《大時代》其中著名演員鄭少秋飾演丁蟹丁蟹是一個資深的股民股海翻騰身心疲憊終無所得。在1992年的随後20多年裡隻要電視台一播放鄭少秋主演的連續劇香港恒生指數都會有不同程度的下跌人稱“丁蟹效應或稱秋官效應”這是有樣本支援的如圖6所示。每次鄭少秋主演的電視劇播放預告時總有香港股民打電話到電視台希望不要播放因為擔心虧錢。

圖6 丁蟹效應與香港股市圖檔來源文彙報

更無厘頭的是這相關性還扯到中國運動員劉翔身上了下面是個“餘溫尚存”段子它是這樣描述的

2008年8月18日北京奧運會劉翔因傷退賽當天股市大跌5.3%并且一個月内大跌20%。

2014年9月他宣布結婚一個月後股市就開始狂漲從2300點漲到5178點。

2015年6月26日劉翔離婚股市繼續大跌至8%。股市的漲跌原來都是因為劉翔啊

是以網友們強烈要求劉翔盡快宣布再次結婚。

香港的股民為什麼不希望鄭少秋主演的電視劇播放是因為怕電視劇一播放股市就下跌。大陸的股民為什麼希望劉翔再次結婚因為劉翔有喜了是以股市就有喜了。注意到前面描述中展現出來的“因果關系”嗎

事實上《大時代》和劉翔和股市之間有何因果關系不過是樣本大了變量多了統計上的“相關性”就會冒出來而已。而人們卻“潛移默化”地把觀察到的“相關”當作事物背後的“因果”。

或許就有人不太認可上述觀點認為上面兩個小故事都是屬于段子級别的案例何以能說明問題那我們就舉一個古而有之的案例來說明這個觀點。請讀者略看下面的文字

黃梅時節家家雨,青草池塘處處蛙。

潮起潮落勁風舞夏夜夏雨聽蛙鳴。

荷沐夏雨嬌滴滴稻裡蛙鳴一片歡。

夏雨涼風蟬噪蛙鳴熱浪來襲遠處雲樹晚蒼蒼。

皇阿瑪你還記得當年蛙鳴湖邊的夏雨荷嗎

我們知道文學雖然高于生活但亦源于生活。從上面的從古至今的“文人墨客”的詩情畫意中讀者依稀可看出一點點相關性——人類祖先經過長期觀察發現蛙鳴與下雨往往是同時發生。這樣的長期觀察樣本也可稱得上是“大資料”。于是在久旱無雨的季節不求甚解的古人就會把這個“相關性”當作“因果性”了他們試圖通過學蛙鳴來求雨。在多次失靈之後就會走向巫術、獻祭和宗教[8]如圖7所示。是以同小資料一樣在大資料中可解釋性因果關系始終是重要的。

圖7 印度人民以蛙求雨的習俗源遠流長至今留存圖檔來源網際網路

博弈論創始人之一、天才計算機科學家諾伊曼(john von neumann)曾戲言稱“如果有四個變量我能畫頭大象如果再給一個我讓大象的鼻子豎起來”大資料的來源多樣性變量複雜性為誕生 “新穎”的相關性創造無限可能。而本質上人們對因果關系的追求事實上已經根深蒂固這種思維慣性難以輕易改變而在大資料時代會面臨着冒出更多的相關性“亂花漸欲迷人眼”。大資料的擁趸者們說“要相關不要因果”但事實上在很多時候特别是人們在對未來無法把控的時候很容易把“相關”當作“因果”這是大資料時代裡一個很大的陷阱特别值得注意。

2.2.3 大資料的其它陷阱

下面我們用另外一個小“故事”來說明大資料的第二個陷阱

假如你是一位出車千次無事故的好司機年關将近酒趣盎然在朋友家喝了點小酒這時估計警察也該下班過年了于是你堅持自己開車回家盤算着這酒後駕車出事故的機率也不過千分之一吧。如果這樣算你就犯了一個取樣錯誤因為前一千次出車你沒喝酒它們不能和這次“酒後駕車”混在一起計算故事來源參考文獻[16]。

這是大資料分析中的第二個容易跳入的陷阱。大資料的多樣性裡包括了資料品質上的“混雜性”某些低頻但很重要的弱信号很容易被當作噪音過濾掉了進而痛失發現“黑天鵝”事件的可能性。

再例如在美國學習飛機駕駛是件“司空見慣”的事在幾十萬學習飛機駕駛的記錄中如果美國有關當局能注意到有那麼幾位學員隻學習“飛機起飛”而不學習“飛機降落”那麼9/11事件或許就可以避免世界的格局可能就此發生根本性的變化當然這個事件也為中國赢得了10年的黃金發展期不在本文的讨論範圍就不展開說。在大資料時代的分析中很容易放棄對精确的追求而允許對混雜資料的接納但過多的“混雜放縱”就會形成一個自設的陷阱。是以必需“未雨綢缪”有所提防。

在大資料時代裡第三個值得注意的陷阱是大資料的擁趸者認為大資料可以做到“n=all”這裡n資料的大小是以無需采樣這樣做也就不會再有采樣偏差的問題因為采樣已經包含了所有資料。但事實上“n=all”很難做到統計學家們花了200多年總結出認知資料過程中的種種陷阱如統計偏差等這些陷阱不會随着資料量的增大而自動填平。這在《來自大資料的反思需要你讀懂的10個小故事》一文中已有讨論不再贅言。

3.今日王謝堂前燕暫未飛入百姓家——大資料沒那麼普及

目前雖然大資料被炒得火熱甚至連股票交易大廳的大爺大媽都可以聊上幾句“大資料”概念股但是大資料真的有那麼普及嗎

事實上倘若想要充分利用大資料至少要具備3個條件1擁有大資料本身2具備大資料思維3配備大資料技術。這三個高門檻事實上已經把很多公司企業拒之門外套用劉禹錫那句詩今日王謝堂前燕不入尋常百姓家——大資料依然還是那麼高大上遠遠沒有那麼普及

圖8所示的是著名it咨詢公司高德納gartner于2014年公布的技術成熟度曲線hype cycle。國内将“hype cycle”翻譯成“成熟度曲線”實在是太過文雅了直譯為“炒作周期”也毫不為過。從圖8可以看出大資料已經過了炒作的高峰期目前處于泡沫化的底谷期 (trough of disillusionment)。

在曆經前面的科技誕生促動期 (technology trigger)和過高期望峰值期peak of inflated expectations這兩個階段泡沫化的底谷期存活下來的科技如大資料需要經過多方曆練技術的助推者要麼咬牙堅持創新要麼無奈淘汰出局能成功存活下來的技術及經營模式将會更加務實地茁壯成長。

李國傑院士在接受《湖北日報》的采訪時也表達了類似的觀點“大資料剛剛過了炒作的高峰期”[17]。冷靜下來的大資料或許可以走得更遠。

圖8 高德納技術成熟度曲線圖檔來源gartner

李國傑院士還表示大資料與其他資訊技術一樣在一段時間内遵循指數發展規律。指數規律發展的特點是在一段時期衡量内至少30年前期發展慢經過相當長時間可能需要20年以上的積累會出現一個拐點過了拐點以後就會出現爆炸式的增長。但任何技術都不會永遠保持“指數性”增長最後的結局要麼進入良性發展的穩定狀态要麼走向消亡。

大資料的布道者們張口閉口言稱大資料進入pb時代了。例如《連線》雜志的前主編克裡斯·安德森早在2008年說“在pb時代數量龐大的資料會使人們不再需要理論甚至不再需要科學的方法。”但是這個吹捧也是非常不靠譜的亦需要潑冷水還有大資料。

在大資料時代我們要習慣讓資料發聲。下面的統計資料來自大名鼎鼎的學術期刊《科學》science。2011年《科學》調查發現[18]在“你科研過程中使用的或産生的最大資料集是多少”的問卷調查中如圖9所示48.3%的受訪者認為他們日常處理的資料小于1gb隻有7.6%的受訪者說他們日常用的資料大于1tb1tb=1024gb1pb=1024tb也就是說調查資料顯示92.4%使用者所用的資料小于1tb一個稍微大點的普通硬碟就能裝載得下這讓那些動辄言稱pb級别的大資料的布道者們情何以堪啊而大資料重度鼓吹手idc目前正在為業界巨擘搖旗呐喊zb時代1zb=1024pb我們一定要冷眼看世界慢慢等着瞧吧

圖9 在你的科研中你使用的或産生最大資料集是多大圖檔來源科學期刊

而在“你在哪裡存儲實驗室産生的資料或科研用的資料”問卷調查中50.2%的受訪者回答是在自己的實驗室電腦裡存儲38.5%受訪者回答是在大學的伺服器上存儲。由此可見大部分的資料依然處于資料孤島狀态在資料流通性的道路是依然“路漫漫其修遠兮”。而資料的流通性和共享性如前文所述是大資料成敗的前提。

圖10 你主要在哪裡存儲你實驗産生的或科研資料圖檔來源科學期刊

或許也有讀者不以為然說我就是屬于那部分小于7.6%的人即使用或産生的資料大于1tb。“我小衆我自豪”此類信心滿滿的人大多來自主流的網際網路公司如google、yahoo、微軟、facebook等而在國内的自然非bat莫屬了。事實上即使來自這類大公司的日常業務其資料集也不是那麼大的“觸目驚心”。

微軟研究院資深研究員antony rowstron等人撰文指出[19]根據微軟和yahoo的統計所有hadoop的作業放一起取個中間值其輸入資料集的大小也不過是14gb。即使是在大資料大戶facebook其90%的作業輸入資料集也是小于100gb的clusters (at microsoft and yahoo) have median job input sizes under 14 gb, and 90% of jobs on a facebook cluster have input sizes under 100 gb。那些動辄拿某個網際網路巨頭的資料體積總和來“忽悠”大家的大資料布道者們更應該借給閱聽人們“一雙慧眼”讓他們“把這紛擾看得清清楚楚明明白白真真切切”。

當然antony rowstron的這篇論文“意不在此”文中的主要訴求是既然我們日常處理的資料沒有那麼大到“不成體統”就沒有必要把某台機器的性能名額一味地縱向擴充scale up比如把記憶體從8g更新為16gb32gb64gb甚至更高而是應該選擇更加“經濟實惠”的橫向擴充scale out政策比如将若幹個8gb低配置的機器連接配接在一起組成一個廉價的叢集cluster然後利用hadoop将叢集用起來是以這篇論文的标題是“沒有人會因在叢集上使用hadoop而被解雇nobody ever got fired for using hadoop on a cluster”言外之意在目前大資料語境下使用“類hadoophadoop-like”工具分析大資料是未來主流的趨勢之一就業市場一片光明。

從上面的分析可以看出我們不否認大資料是前沿但我們更不能對目前的現狀熟視無睹——小資料依然是主流。目前大多數公司、企業其實仍處于“小資料”處理階段。但隻要在縱向上有一定的時間積累在橫向上有較豐富的記錄細節通過多個源頭對同一個對象采集的各種資料有機整合實施合理的資料分析就可能産生大價值。基于此李國傑院士指出在大資料時代我們是不能抛棄“小資料”的[9]。

對精确的追求曆來是傳統的小資料分析的強項這在一定程度上彌補大資料的“混雜性”缺陷。猶如有句歌詞唱得那樣“結識新朋友不忘老朋友”。在大資料時代我們也不能忘記小資料。大資料有大資料的力量小資料有小資料的美。下面我們就聊聊這個話題。

4.你若安好便是晴天——小資料之美

小資料其實是大資料的一個有趣側面是其衆多元度的一維。有時我們需要大資料的全次元可視周濤教授甚至把“全息可見”作為大資料的特征而這個特征在對使用者數字“畫像”時非常有用因為這樣做非常有利于商家推廣“精準營銷”。

在這裡我們再次強調托馬斯·克倫普的哲學觀——資料的本質是人。技術也是為人服務的。對于 “普羅大衆”而言有時我們并不希望自己被數字化被全息透明化這就涉及到個人隐私問題了。如果大資料技術侵犯個人的隐私讓閱聽人不開心了那這個技術就應該有所限制和規範但這不在本文的讨論範圍就不展開說了。

流行的“大資料”定義是“無法通過目前主流軟體工具在合理時間内采集、存儲、處理的資料集”。我們很容易反其道而用之定義出“小資料small data” “通過目前主流軟體工具可以在合理時間内采集、存儲、處理的資料集”。這就是傳統意義上的小資料經典的數理統計和資料挖掘知識可以較好地解決這類問題。這個範疇的小資料屬于老生常談是以本文不談。

我們下文讨論的小資料是一類新興的資料它是圍繞個人為中心全方位的資料是我們每個個體的數字化資訊是以也有人稱之為“idata”。這類小資料跟大資料的根本差別在于小資料主要以單個人為研究對象重點在于深度對個人資料深入的精确的挖掘對比而言大資料則側重在某個領域方面在大範圍、大規模全面資料收集處理分析側重在于廣度。

小資料是大資料的某個側面事實上很多時候對于個人而言這個所謂的側面就有可能是特定個人的全面。當大資料受萬人矚目時創新技術如智能手機、智能手環及智能體育等也讓小資料——個人的自我量化quantified selfqs “面朝大海春暖花開”。

個人量化可以測量、跟蹤、分析我們日常生活中點點滴滴。比如今天的早餐我攝入了多少卡路裡圍着操場跑一圈我消耗了多少熱量在手機的某個app(如微信)上我耗費了多少時間等等諸如此類。在某種程度上是小資料而非大資料才是我們生活的幫手。“小資料”不比大資料那樣浩瀚繁雜卻對我自己至關重要。下面我們用兩個小案例來說明小資料的應用。

先說一個稍微高大上的案例。據科技記者emily waltz在ieee spectrum的撰文指出[20]目前佩戴在運動員身上生物小配件biometric gadget通常指傳感器正在改變世界精英級運動員的訓練方式。這些可穿戴傳感器裝置提供實時的生理參數而在以前倘若要擷取這樣的資料需要笨重和昂貴的實驗室裝置。如同40年前風靡一時的負重訓練方案可讓運動員更有韌性可穿戴裝備能幫助運動員提高成績并同時避免受傷。一些棒球手、自行車運動員和橄榄球等競技運動員用新裝備尋求優勢。

圖11 運動員利用可穿戴裝置訓練美式橄榄球圖檔來源ieee

例如在如圖11所示的裝備中運動員身上的傳感器能夠精确記錄在室内外場館的運動特征。這些自我量化裝置可放置于運動員背部的壓縮衣中它能夠監控運動員的加速、減速、方向改變以及跳躍高度和運動距離等名額。教練員能夠通過監控資料來檢測每個運動員訓練強度并防止過度訓練所帶來的傷害。這些自我量化裝置的工作原理是協同使用很多小裝置如加速計、磁力計、陀螺儀、gps接收儀等——這些裝置每秒能夠産生100個資料點。通過無線連接配接計算機可以實時采集這些資料。個人量化分析軟體可對運動特征和特定位置實施分析計算機專家系統中的算法可以檢測到運動員在做對了什麼、做錯了什麼基于此教練可以給出更加有針對性的訓練。目前此類裝置的使用者包括一半以上的nfl(橄榄球聯盟)、三分之一的nba運動員、一半以上的英超球隊以及世界各地的足球隊、橄榄球隊和劃船運動隊等。

自我量化裝置可穿戴裝置通常是和物聯網internet of thingsiot是有關聯的。而現在還處于炒作巅峰的物聯網如圖8所示通常是和大資料扯到一起的但是就某個具體的物聯網裝置而言它一定先是産生少量的甚至是微量的資料也就是說物聯網首先是小資料然後才能彙內建大資料。沃頓商學院教授、紐約時報最佳暢銷書作者喬納·伯傑jonah berger推測[21]個人的自我量化資料或許将會是大資料革命中下一個演進方向。由此可見大、小資料之間并無明顯的界限。再大的資料也是人們一點一滴聚沙成塔、集腋成裘的。沒有小資料的積少成多、百川歸海大資料也是無源之水、無本之木。

但如同中國那句老話說的“一屋不掃何以掃天下”如果小資料都不能很好地處理如何來很好地處理“彙集”而來的大資料

說完高大上的案例下面我們再聊聊一個“平淡無奇”生活小案例[22]:

故事的主人是美國康奈爾大學教授德波哈爾·艾斯汀deborah estrin。estrin的父親于2012年去世了而早在父親去世之前的幾個月裡這位計算機科學教授就注意到一些“蛛絲馬迹” 相比從前父親在數字社會脈動social pulse中已有些許變化——他不再查閱電子郵件到附近散步的距離也越來越短也不去超市買菜了。

然而這種逐漸衰弱的迹象在他去醫院進行的正常心髒病cardiologist體檢中不一定能看出來。不管是測脈搏還是查病曆這位90歲的老人都沒有表現出特别明顯的異常。可事實上倘若追蹤他每時每刻的個體化資料這些資料雖小但也足夠刻畫好出老人的生活其實已然明顯與之前不同。

這種日常自我量化的小資料帶來了生命訊息的警示和洞察啟發了這位計算機科學教授促使estrin在康奈爾大學建立建立了“小資料實驗the small data lab @cornelltech通路連結http://smalldata.io/”。在estrin看來小資料可以看作是一種新的醫學證據它僅是“他們的資料中屬于你的那一行your row of their data”[23] 。

舍恩伯格教授在其著作《大資料時代》中将大資料定義為全資料即n=alln為資料的大小其旨在收集和分析與某事物相關的“全部”資料。類似的 estrin将小資料定義為“small data where n=me”它表示小資料就是全部有關于我me的資料[24]。

如此一來可以看出小資料更加“以人為本”它可以為我們提供更多研究的可能性能不能通過分析年老父母的內建資料進而獲得他們的健康資訊能不能通過這些內建資料比較不同的醫學治療方案如果這些能實作“你若安好便是晴天”便不再是一句空洞的“文藝腔”而是一席“溫情脈脈”的期望。

人是一切資料存在的根本。人的需求是所有科技變革發展的動力。可以預見不遠的将來資料革命下一步将進入以人為本的小資料的大時代。當然這并非說大資料就不重要。一般來說從大資料得到規律用小資料去比對個人。吳甘沙先生用《一代宗師》的台詞來比拟大、小資料的區分倒也甚是恰當。他說小資料“見微”作個人刻畫可用《一代宗師》中“見自己”形容之而大資料“知著”反映自然和群體的特征和趨勢可用《一代宗師》中的 “見天地、見衆生”比喻之。

著名科技史學家馬爾文·克蘭茲伯格(melvin kranzberg)提出的“克蘭茲伯格第一定律”指出“技術既無好壞亦非中立”即技術确實是一種力量但“與社會生态技術的互相作用使得技術發展經常有問題遠遠超出了技術裝置的直接目的和實踐自己的環境人類釋放出來的技術力量與人類本身互動的複雜矩陣都是有待探索的問題而非必然命運”。

前面我們說道大資料可能存在資料安全及隐私問題事實上小資料同樣存在類似的問題甚至更為嚴峻。我們應清楚諸如大資料、小資料的科技既可以為公衆謀福利也可能對人造成傷害。關鍵就是如何在機遇與挑戰間尋找到最佳的平衡。

5.小結

在資料的江湖裡既有波瀾壯闊的大資料也有細流漣漪的小資料二者相輔相成才能相映生輝。美國電子電氣工程師協會會士ieee fellow、中國科學院計算技術研究所研究員闵應骅表示[25]目前大資料流行人們就“言必稱大資料”這不是做學問的态度不要碰到大量的資料就給它戴上一頂帽子“大資料”。目前各行各業碰到的資料處理多數還是“小資料”問題。不管是大資料還是小資料我們應該敞開思想研究實際問題切忌空談精準定位碰到的資料業務問題以應用為導向而非以技術為導向不要哪個技術熱追逐哪個。

《fierce big data》編輯pam baker表明[26]當你在尋思如何抉擇大資料還是小資料時先擱置這事兒。思量一下你的公司是否擅長利用資料創造價值如果你的公司還沒有達到這個境界那先把這事解決了再說。

前中信銀行行長、中信集團監事長朱小黃也曾說[27]“資料本無大小但運用資料的立場卻分大小是謂大資料”。深以為然。

在平劇《沙家浜》有句經典唱詞“壘起七星竈銅壺煮三江。擺開八仙桌招待十六方”。如果大資料、小資料是這“八仙桌”上的菜來自“十六方”的您在下口之前一定要先确定哪道才是你的菜不然花了冤枉錢還沒有吃好那可就“整個人都不好了”。

原文釋出時間為2015-08-16

本文來自雲栖社群合作夥伴“大資料文摘”了解相關資訊可以關注“bigdatadigest”微信公衆号

大資料，小資料，哪道才是你的菜？

繼續閱讀

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark