大資料的誤區：資料統計≠大資料

導讀

近兩年來，“大資料”被廣泛應用到各行各業，而近階段又有着明顯的過熱迹象。從央視的春運遷徙圖到姚晨看到微網誌資料的驚呼;從兩會期間的兩會大資料，到《星星》都叫獸的高低領毛衣，“大資料”被人們推到了一個前所未有的高度，同時也從一個高精尖的科研方向變成了一個世人皆知的營銷詞彙。

我既沒有資格代表學術界，更沒有資格來判定誰是誰非。我隻能就自己的工作經曆，來談一下我眼中的大資料。

什麼是大資料?

百度百科對大資料的定義是這樣的：大資料(big data)或稱巨量資料，指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具，在合理時間内達到撷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。

gartner給出了這樣的定義：“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資産。

個人認為gartner的定義更為貼切。“新處理模式”是一個很關鍵的詞彙，這也是我所了解的“大資料”差別于傳統統計分析等最關鍵的特征之一。這個所謂的“新處理模式”有兩層含義：

由于海量的資料，需要更高效的存儲和處理技術，hadoop成為了大資料時代的标志;

如果你認為大資料就等于hadoop，那就大錯特錯了。hadoop隻是大資料時代的一個必要條件，大資料還有一個明顯的标志是資料挖掘和人工智能的緊密結合。這也是我了解的“大資料”與現在很多所謂“大資料”項目最明顯的差別之一。我會在後面的案例中給大家展開。

除了上面的“新處理模式”上的差別，個人認為還有一個最主要的差別是：資料統計分析是基于已有資料的縱向歸類，而大資料是基于對已有海量資料的處理，對還未産生的資料作出預測和推薦。資料統計是已經發生的事情，而大資料往往被用于還沒有發生的事情預測或者推薦中。

預測和推薦是如何實作的

目前主要的推薦算法大緻可以分為兩類。一個是基于行為，一個是基于内容。當然，針對不同的領域，不同的預測和推薦的對象，又會有十餘種算法。這就不是本文展開的内容了。

基于行為的分析，顧名思義，即對使用者在網際網路、移動網際網路留下的“痕迹”，即浏覽、點選、收藏、購買、二次購買的分析，得出未來會選擇購買的預測和推薦結果。基于行為的分析，屬于群體智慧，綜合利用群體使用者的行為偏好。使用者之間會互相影響，更加符合現實世界中的使用者行為。

基于内容的分析，包括對文字、圖檔、音頻、視訊等資訊的分析，得出預測和推薦的結論。内容的“基因”和使用者的偏好相比對，最有代表的是潘多拉的音樂推薦項目，其将曲庫中所有歌曲都由400多位專家打上标簽，然後建立個人與音樂的聯系，進而完成音樂的推薦。内容的分析隻針對個人，與使用者之間關系無關。

大資料到底能做什麼

現在談這個問題可能會讓大家笑話，似乎所有人都知道大資料能幹這個，能幹那個，最後連我們自己都覺得可笑。大資料已經都不是被“妖魔化”了，是“娛樂化”。大資料似乎是個離我們忽遠又忽近的事物了，變得不真實起來。

好吧，我還是結合從業經曆來說說大資料“解決過什麼問題”吧：簡單地來說，大資料可以幫我們解決決策和選擇的問題。

天氣預報就是一個最古老而且衆所周知的預測。你可以根據預報來決定明天穿什麼衣服，是否要帶雨傘，等等;

近兩年來，大資料被應用到影視制片行業，基于對觀衆偏好的分析，去預測、設計觀衆喜歡的劇情，找觀衆喜愛的演員出演相關的角色，甚至可以去預測票房。這些所有的預測都是基于資料的基礎上，經過一定的模型處理，得到接近真實的結論。從某種程度上給決策者決策的依據，比如《紙牌屋》和《星星》。

大資料還有一個重要的作用，就是解決人們的“選擇”問題。别笑，無論你的年齡、性别、教育背景，人們目前都面臨着前所未有的選擇問題。講的學術一些，這是由于“長尾效應”導緻的問題;講得通俗一些，就是由于日益增多的可選擇的對象和我們自身的處理能力之間的沖突。

科技的進步讓人變得更懶，也就是我們自身的處理能力降低，無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁複雜的商品(電商)，到海量曲庫中的樂曲;從婚戀網站的男女朋友，到交通管理的信号燈。

基于人工智能下的大資料，就是可以使人們“變懶”的一個手段。基于你的曆史行為，判斷出你可能的喜好，乃至需求，将最佳結果，推薦給你。這就是大資料，她是你的貼心管家，或者說是最懂你的朋友。

一個最經典的案例是沃爾瑪曾經做過的“啤酒”和“尿布”調研：沃爾瑪在研究中發現，一類顧客經常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關聯的兩個品類的商品，從個人經驗上來看，根本想不到二者的聯系。後來發現，這是一類社會現象所導緻的。美國有很多年輕夫婦，尿布用完後，女主人在家帶孩子，而男主人就去超市買尿布。買完尿布之後，男主人通常會順帶着買些啤酒。

上述例子說明，資料經常可以讓你發現看似不合理不合邏輯但卻存在，并且經常發生的現象。

再舉個例子，北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰，這已經不需要預測了。但如果根據曆史交通資料，再經過數學模型，計算出一個全北京最佳的交通信号燈管理系統，這就屬于大資料的範疇了。

這也是我眼中大資料主要與普通的資料統計分析最大的不同：資料統計可以幫助你發現疾病，但大資料可以不但幫助你發現，且幫助你治療疾病。

大資料絕不是“噱頭“，我們在幫助某營運商閱讀基地的閱讀推薦項目中，各項名額均得到大幅提升。而這個提升不是百分之幾十，而是數倍的提升!(使用者人均流量提升了4倍，沉默使用者激活能力提升了6.5倍)這才是大資料的魅力。

大資料不是萬能的

大資料顯然不是萬能的。正因為如此，她才真實。大資料在有些領域由于種種原因，所帶來的價值并不如預期的那麼高。導緻這種現象最主要的問題有兩個，一個是由于資料本身的品質或者數量不夠;另一個是算法不合适。

不要以為是海量資料就一定會有價值，在過往的工作中，我們經常發現來自甲方的資料源有80-90%的資料都是無用的。隻有10%-20%的資料才會産生一定的價值。這就又讓我想到marry meeker打的那個比喻，“大資料的工作就像在一堆稻草中尋找一根針”。

何況，大多數領域本身業務屬于早期，所擁有的資料非常貧乏。冷啟動、稀疏性是大資料在諸多領域面臨的挑戰。

另一方面，對于不同領域，不同項目，沒有放之四海而皆準的算法，必須要根據具體問題具體分析解決。在實際的工作中發現，不隻是不同的領域(如文章推薦與商品推薦)，甚至同一領域的不同單元(同屬電商但不同類電商，如母嬰類和服裝類或者奢侈品類)也有所不同。

資料的交叉利用

上面提到的兩個大資料在實際應用中面臨的最大問題，即冷啟動時資料的匮乏和業務早期資料的稀疏性問題，并不是無藥可救。業界一直讨論的資料打通，就是解決這兩問題的出路。

對于一些新興領域，缺乏資料是必然的，而另一方面，正由于缺乏資料的支援，是以才更需要有強大決策支援的系統對其業務做指導和支撐，以實作少走彎路，利益最大化的目的。

移動網際網路領域的項目，尤為代表。雖然在過去的兩三年裡，移動網際網路得到了高速的發展，但畢竟在各個方面的積累，都無法與網際網路相比。尤其在人們形成穩定的使用習慣之前，資料還不具備更多的價值和意義。

但如果能把網際網路的資料與移動網際網路資料打通，那麼我們就掌握了這個人的喜好等多方面資訊，進而為移動網際網路業務做出更有效的指導和幫助。

當然，資料的打通絕不僅限于網際網路和移動網際網路。每個資料源的資料往往刻畫了一個人的不同方面。正如巴拉巴西教授在《爆發》一書中描繪的那樣，如果資料充分，人類93%的行為是可以預知的，是有規律的。

也隻有将這些不同來源的資料重新組織，才能挖掘出更有意義的資訊。

如今，行業内不少人打着“資料統計和分析”的旗号來做大資料，讓很多外行人陷入了誤區：資料統計并非等于大資料。無論資料統計也好，大資料也罷，其實都是為了使我們的工作變得更為有效，讓決策更為理性而準确。重視資料，本身就是一個企業成熟的标志。

移動網際網路的迅速崛起，讓資料變得更為多樣、豐富。它的移動性，它的碎片化，它的私密性和随時性都剛好彌補了使用者離開桌面電腦之後的資料，進而與原有的網際網路資料一起很好滴勾勒出一個網民一天的生活，日常生活的資料化。

随着資料的進一步豐富和完善，随着不同管道資料的打通和交叉利用，有關大資料的想象一定會更加廣闊。

本文轉自d1net（轉載）

大資料的誤區：資料統計≠大資料

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希