天天看點

背離現實世界,大資料毫無價值

背離現實世界,大資料毫無價值

經過一代人的時間,“技術天才”與社會的關系發生了改變,他們從宅男變成了救世主,從反社會群體變成了社會的最大希望。許多人似乎确信,當下了解我們世界的最佳方式便是坐在螢幕前,分析海量資訊——我們稱其為“大資料”。

來看看“谷歌流感趨勢”吧。2008年,當它面世時,矽谷的許多人員鼓吹其将成為大資料的另一個裡程碑,并且會很快淘汰掉傳統分析。

不過,他們錯了。

如果矽谷的大資料傳教士們真想“了解世界”,那麼他們不僅需要掌握資料的量,也要掌握資料的質。

“谷歌流感趨勢”不僅沒有提供流感傳播的精确圖表,它也無法實作大資料作為傳道者的美夢。沒有“厚資料”,大資料就什麼也不是。你必須離開電腦,深入到現實世界當中來擷取這些豐富且帶有情境化的資訊。電腦極客們一度因不擅社交而被嘲笑,他們被告知應該“多出去走走”。事實上,如果大資料最主要的擁趸者希望了解這個他們也參與塑造的世界,他們真的需要出去走走。

與修改算法無關

“谷歌流感趨勢”試圖通過識别人們在流感季可能搜尋的詞彙來發揮作用。當它追蹤的詞彙搜尋達到高峰時,谷歌會向大家預警新流感的爆發,這大約要比官方資料早兩周時間。

對很多人來說,“谷歌流感趨勢”成為了大資料之力的代表。在暢銷書《大資料:一場改變我們生活、工作和思考的革命》中,作者維克托-邁爾-舍恩柏格和肯尼斯-庫克耶稱,與政府滞後的資料報告相比,“谷歌流感趨勢”是更有用、更及時的流感訓示器。為什麼即便費心檢視資料,人們還是會得病,我們何時才能知道究竟什麼與疾病相關?“因果關系”他們寫道,“不會被丢棄,不過其立意的根本正受到考驗。”

然而,本月發表在《科學》上的一篇文章表明,自2011年八月起,“谷歌流感趨勢”幾乎每周都會高估流感的流行性。

回溯到2009年,在釋出後不久,“谷歌流感趨勢”完全沒預警到豬流感。這證明人們在流感季搜尋的許多詞都與流感無關,而與每年這一季相關的詞通常都有:冬天。

如今,很容易說(像許多人做過的那樣)“谷歌流感趨勢”的失敗源于大資料的不成熟。不過,這樣便錯過了問題的關鍵。當然,調整算法、提高資料收集技術将會讓下一代大資料工具變得更有效。然而,大資料真正的狂妄之處不在于我們對一套不成熟的算法和方法過于自信,問題是我們盲目地相信坐在電腦螢幕前,搗鼓一些數字就足以讓自己對周圍廣闊的世界有個了解。

為什麼大資料需要“厚資料”

大資料僅僅是在收集人文學科中所謂的”薄資料“,它們由我們的動作和行為路徑産生。我們每天最常走的路線,在網上搜尋的東西,睡了多久,人與人之間的多種聯系,我們所聽的音樂類型等等。這些資料來自于你浏覽器中的cookies,你腕上的fitbit或是你手機裡的gps。人們的這些行為内容無疑是重要的,但它們并不是全部。

為了真正地了解人,我們也必須了解經驗的那部分,即人類學家所指的“厚資料”。它不僅僅捕捉事實。比如說,美國有86%的家庭主婦每周會喝掉6誇脫以上的牛奶,但是她們為什麼喝牛奶呢?而且這像什麼呢?一塊帶有星星和條紋的三色布是薄資料,而一面在風中高高飄揚的美國國旗便是厚資料。

在探尋“我們做了什麼”的基礎上,大資料簡單地認識我們;厚資料嘗試通過我們如何與所在的不同世界相聯系來了解我們。隻有了解我們的世界,人們才能從整體上真正認識它,這恰恰也是谷歌、facebook這類的公司想要做的。

用0和1認識世界

想想當下矽谷的那些宏偉宣言,谷歌有名的宗旨是“組織全球資訊,使人人皆可通路并從中獲益。”最近,馬克-紮克伯格跟他的投資人說,在全球性連接配接變得日趨重要、知識經濟不斷受到強調的背景下,facebook帶來了一個全新的視角,即”認識世界”。他描述了未來“認識”的樣子:“人們每天向graph(facebook的算法搜尋機制)釋出數十億條内容和連結,由此建立各種有待了解事物的最明晰模本。”在這個追求認識的過程中,即便是一些小公司也可以分享資訊。去年,捷波朗軟體的副總裁耶利米-羅賓遜說道,他們的健康跟蹤裝置jawboneup試圖“認識行為變化的科學。”

與收集的資料一樣,這些目标也非常“大”。毋庸置疑,商業渴望更好地認識社會。畢竟,與客戶行為及文化相關的資訊不僅是經營的關鍵;在知識經濟時代,它們也逐漸成為一種貨币,用來交換點選數、浏覽量、廣告費,或是更簡單直接的——權力。在此過程中,倘若谷歌、facebook這類公司能幫助我們不斷地增進對自己的認識,它們便将獲得更大的權力。問題是聲稱電腦終将組織所有資料,或是向我們提供對流感、健康、社交聯系或任何其他事情的全面認識,這徹底拉低了資料和認識的意義。

如果矽谷的大資料傳教士們真想“了解世界”,那麼他們不僅需要掌握資料的量,也要掌握資料的質。不幸的是,要實作後者,人們要将電腦放下,不僅“從谷歌眼鏡中看世界”(或是從facebook中、從虛拟現實中),還要去體驗真實的世界。這樣做有兩個重要原因。

要了解人,你就要了解他們所處的情境

如果你對一個領域高度熟悉,薄資料則是最有用的。你有能力填補資訊的不足,設想到人們為什麼這樣做或為什麼有這樣的反應——當你能想象并重建行為發生的情境時,薄資料便是有意義的。如果不知道情境,想推斷出任何因果關系或是了解人們的行為動機則是很難實作的。

這也是為什麼在科學實驗中,研究人員需要竭盡全力掌控實驗室環境的方方面面,以求打造一個人為場所,使各種影響因素都在可計量範圍内。不過,真實世界并不是一個實驗室。能確定你對陌生情境有所了解的唯一途徑即是置身其中地去觀察、去内化并闡述正在發生的每一件事。

世上大部分是我們所不知道的隐性知識

如果說大資料擅長測量人們的行為,那麼它在認識人們日常事物的隐性知識方面則是失敗的。我怎麼知道刷牙時該擠多少牙膏?什麼時候該并入行車道?眨眼是表示“這東西真有趣”還是”我的眼睛進了東西“?這些都是内化的能力、無意識的行為,一種内隐的認識在控制着我們的行為。跟身邊的事物一樣,這些不可見的隐性知識隻有主動去看,我們才能發現。不過,它們卻對每個人的行為方式有着重要影響。它能夠解釋事物是怎樣、以哪種意義與我們聯系起來的。

人類及社會科學中有一系列俘獲和解釋人的方法,他們所處的情境,他們的隐性知識,而且這些都擁有一個特質:它們要求研究者進入雜亂而真實的生活。

沒有哪一個工具可以成為認識人類的快捷方式。盡管矽谷有許多出色的發明,不過我們對數字技術的期望還是要有個限度。”谷歌流感趨勢“真正教給我們的是:不能僅僅問這個資料有多”大“,還要問問這個資料有多”厚”。

有時,走進真實的生活将會得到更好的效果。有時,我們必須要離開電腦一會兒。

原文釋出時間為:2014-07-09

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀