“大資料”時代，什麼是資料分析做不了的？

不久之前我曾與一位大型銀行的首席執行官一同用餐。他正在考慮是否要退出意大利市場，因為經濟形勢不景氣，而且未來很可能出現一場歐元危機。

這位ceo手下的經濟學家描繪出一片慘淡的景象，并且計算出經濟低迷對公司意味着什麼。但是最終，他還是在自己價值觀念的指引下做出了決定。

這家銀行在意大利已經有了幾十年的曆史。他不希望意大利人覺得他的銀行隻能同甘不能共苦。他不希望銀行的員工認為他們在時局艱難之際會棄甲而逃。他決定留在意大利，不管未來有什麼危機都要堅持下去，即便付出短期代價也在所不惜。

做決策之時他并沒有忘記那些資料，但最終他采用了另一種不同的思維方式。當然，他是正确的。商業建立在信任之上。信任是一種披着情感外衣的互惠主義。在困境中做出正确決策的人和機構能夠赢得自尊和他人的尊敬，這種感情上的東西是非常寶貴的，即便它不能為資料所捕捉和反映。

這個故事反映出了資料分析的長處和局限。目前這一曆史時期最大的創新就在于，我們的生活現在由收集資料的計算機調控着。在這個時代，頭腦無法了解的複雜情況，資料可以幫我們解讀其中的含義。資料可以彌補我們對直覺的過分自信，資料可以減輕欲望對知覺的扭曲程度。

但有，些事情是“大資料”不擅長的，下面我會一一道來：

資料不懂社交。大腦在數學方面很差勁（不信請迅速心算一下437的平方根是多少），但是大腦懂得社會認知。人們擅長反射彼此的情緒狀态，擅長偵測出不合作的行為，擅長用情緒為事物賦予價值。

計算機資料分析擅長的是測量社會交往的“量”而非“質”。網絡科學家可以測量出你在76%的時間裡與6名同僚的社互動動情況，但是他們不可能捕捉到你心底對于那些一年才見2次的兒時玩伴的感情，更不必說但丁對于僅有兩面之緣的貝阿特麗斯的感情了。是以，在社交關系的決策中，不要愚蠢到放棄頭腦中那台充滿魔力的機器，而去相信你辦工作上的那台機器。

資料不懂背景。人類的決策不是離散的事件，而是鑲嵌在時間序列和背景之中的。經過數百萬年的演化，人腦已經變得善于處理這樣的現實。人們擅長講述交織了多重原因和多重背景的故事。資料分析則不懂得如何叙事，也不懂得思維的浮現過程。即便是一部普普通通的小說，資料分析也無法解釋其中的思路。

資料會制造出更大的“幹草垛”。這一觀點是由納西姆•塔勒布（nassim taleb，著名商業思想家，著有《黑天鵝：如何應對不可知的未來》等書作）提出的。随着我們掌握的資料越來越多，可以發現的統計上顯著的相關關系也就越來越多。這些相關關系中，有很多都是沒有實際意義的，在真正解決問題時很可能将人引入歧途。這種欺騙性會随着資料的增多而指數級地增長。在這個龐大的“幹草垛”裡，我們要找的那根針被越埋越深。大資料時代的特征之一就是，“重大”發現的數量被資料擴張帶來的噪音所淹沒。

大資料無法解決大問題。如果你隻想分析哪些郵件可以帶來最多的競選資金贊助，你可以做一個随機控制實驗。但假設目标是刺激衰退期的經濟形勢，你就不可能找到一個平行世界中的社會來當對照組。最佳的經濟刺激手段到底是什麼？人們對此争論不休，盡管資料像海浪一般湧來，就我所知，這場辯論中尚未有哪位主要“辯手”因為參考了資料分析而改變立場的。

資料偏愛潮流，忽視傑作。當大量個體對某種文化産品迅速産生興趣時，資料分析可以敏銳地偵測到這種趨勢。但是，一些重要的（也是有收益的）産品在一開始就被資料擯棄了，僅僅因為它們的特異之處不為人所熟知。

資料掩蓋了價值觀念。我最近讀到一本有着精彩标題的學術專著——《‘原始資料’隻是一種修辭》。書中的要點之一就是，資料從來都不可能是“原始”的，資料總是依照某人的傾向和價值觀念而被建構出來的。資料分析的結果看似客觀公正，但其實價值選擇貫穿了從建構到解讀的全過程。

這篇文章并不是要批評大資料不是一種偉大的工具。隻是，和任何一種工具一樣，大資料有拿手強項，也有不擅長的領域。正如耶魯大學的愛德華•圖弗特教授（edward tufte）所說：“這個世界的有趣之處，遠勝任何一門學科。”

本文作者：來園的桃子

來源：51cto

“大資料”時代，什麼是資料分析做不了的？

繼續閱讀

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

在weka中內建自己的算法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark