指引大資料未來發展方向的九大真理

筆者總會時不時沉浸在對大資料原則的思索當中，這裡讨論的并不是hadoop與關系資料庫或者mahout與weka的對抗，而是更具根源性的智慧——将資料作為“新時代貨币”的思維方式。不過也許将資料描述成“新時代的石油”更加貼近，或者，我們還需要一種新的比喻更全面地诠釋資料的價值與内涵。

比喻本身既非事實也難以證明，但它們确實能夠創造出指引我們找到真理的話題。比喻讓複雜的概念變得更易了解，正如本文中所引用的經典語錄——它們有助于解釋大資料的各項基本原則。本文将列舉八條與大資料密切相關的真理——大家對此也許有所耳聞、至少略有耳聞——并按時間進行排序。最後，筆者将做出自己的推測，與各位朋友分享“未來的真理”。

這樣的說法我們已經聽過不止一次。在大學的哲學課堂上，我了解到這樣一個關于基礎謬論的表述版本，叫作post hoc ergo propter hoc，翻譯過來就是“後發者因之而發”。聽起來實在有些隐晦，更直白點解釋，就是說“b事發生于a事之後，是以b事由a事而起”。

大家可以讀讀o’reilly radar的部落格。在其中一篇名為《猜測的隐性成本》的文章中，alistair croll指出：“最明顯的相關性表現在大資料的專長方面……并行計算、算法的改進以及摩爾定律的準确特性已經大大降低了對資料集進行分析的成本，”由此衍生出一個“由資料驅動的社會，既聰明又愚蠢。”最終結論?保持聰明的特性，尊重相關性與因果關系之間的差别。模式隻是表現、并非結論。

意外事件統計學家george e.p.box在他1987年編撰的教科書《實證模型建構與響應面》當中寫下了這樣的結論。在從教的整個職業生涯當中，box一直努力将自己的思路轉化成模型，而這種習慣對于大資料分析技術而言非常适用。1976年12月，《美國統計協會》雜志曾經發表過一篇題為《科學與統計》的文章，其中具體論證了模型的前世今生與現實意義。

如果大家還無法認同這一結論，請盡快強迫自己接受。這句話源自scott mcnealy在1999年發表的一份聲明，他表示“大家将徹底告别隐私……請學會适應這一點。”值得一提的是，mcnealy正是sun microsystems公司的聯合創始人兼ceo。如今大資料侵入個人生活的例子比比皆是：分析師有能力根據社交言論推斷發言者的性别，或者通過購買習慣判斷其家中是否存在孕婦;acxiom等從事大量商業資訊存儲的企業迎來輝煌的業務飛躍;預測及防災資訊整合正全面崛起;美國國安局的“棱鏡門”事件也已經大白于天下。

在2008年的一篇文章中有這樣的結論——雖然正如當時所說，由于很難精确量化，可能早在上世紀九十年代初非結構化資料已經扮演起重要角色，隻是我們當時體會不到。總而言之，八成以上的說法隻是種模糊的概念而不能過分較真，因為據我所知，沒有任何一種評估機制針對這個問題進行過系統性衡量。盡管如此，相信每一位與box秉持相同理念的統計學者都會認為“八成非結構化”這一論斷頗具指導意義——即使其并不正确。無論具體數量如何，文本與内容分析都應該成為大家工具包中的常駐成員。

clay shirky在2008年9月于紐約舉辦的web 2.0博覽會上提出了這一論斷。shirky對于過濾器本身的評價顯得有些保守，例如“資料量的增加并不意味着就能帶來更好的結論”，但這正好與我的觀點不謀而合。但前提是事情别做過頭;大家千萬别像eli pariser那樣認為“過濾器概念純粹是泡沫”，他的眼界最多也隻能達到自動化的層面、無法再望向更為廣闊的未來。

在2009年3月ieee智能系統大會上，谷歌公司員工alon halevy、peter norvig以及fernando pereira在一篇題為《資料的非合理化有效性》一文中陳述了以上觀點。資料的非合理化有效性是如何顯露出來的?他們給出的答案是，“不精确且模棱兩可的”自然語言的語義解釋就是最好的執行個體。此外，通過機器學習進行關系推斷、進而實作對大規模聚合内容的解釋也能證明這一點。。

哈佛大學教授gary king在與第六條中的幾位谷歌員工一同出席ieee會議時表達了這一觀點。不過我并不完全贊同king的這種說法。在核實資料需求并制定理想方案以收集并整理資料結構的執行過程當然也存在價值。分析能夠幫助我們發現這些價值，是以我站在king的肩膀上總結出這樣一種更準确些的表述：大資料的價值通過分析來實作。

不過這隻是我的想法，未必能得到king本人的認同。對這個話題感興趣的朋友可以點選此處檢視由steve lavalle、eric lesser、rebecca shockley、michael s. hopkins以及nina kruschwitz于2010年12月在《麻省理工大學-斯隆管理評論》期刊上發表的文章《大資料、分析以及由觀點到價值的路徑》。

這句話來自phil simon，也就是今年早些時候發表的《大到不容忽視：大資料商業案例》一文的作者。(我為該文的撰寫提供了關于文本及情感分析的一些材料。)

simon解釋稱，“大資料并沒有，至少目前還沒有，取代直覺;後者僅僅作為前者的補充存在。二者之間的關系是連貫統一的，而絕不是非黑即白。”tim leberecht在今年六月由cnn刊發的《為什麼大資料永遠無法替代商業直覺》一文中也做出了類似的表述。

最後，這八大指引未來的真理還需要最後一點補充才夠完整——不過這一點尚未得到廣泛了解：

大部分解決方案當中所欠缺的元素在于整合不同來源資訊的能力，這種能力會以适當方式考量與内容相關的産生環境，進而得出準确的結論。這裡我打算引用設計政策師jon kolko在一份啟發性論文中所涉及的論證過程(當然，多少會有些斷章取義)。首先，kolko援引了認知心理學家——他們嘗試研究直覺與解決方案之間的聯系——的結論作為例子。當事者會“根據實際背景了解人物、地點以及事件之間的關聯，弄清事件發生的具體時間，進而對未來可能發生的情況做出判斷并采取相應的行動。”

kolko将設計綜合性視為關鍵性要素，是一種“将資料的操作過程、組織、調整以及過濾過程與背景相結合的方式，旨在将資料轉化為資訊與知識。”這能帶來怎樣的結果?ibm公司研究員jeff jonas認為，“通用目的”型背景系統将有助于在同一資料空間内對不同資料加以定位。此類方案能夠使我們對不斷變化的觀察空間進行可規模化擴充、實時且前所未見的探索。

這不正是我們為大資料制定的發展目标嗎?從模式檢測向可操作結論邁進。我希望自己總結的這九大真理能夠幫助各位了解大資料的這一發展路徑。

原文釋出時間為：2013-10-24

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

指引大資料未來發展方向的九大真理

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark