近日,美國兩本着名學術雜志同時關注大資料話題:《外交》雜志5/6月刊将《大資料的興起》一文作為封面文章,認為大資料将改變人類思考和看待世界的方式。而《外交政策》雜志則在網站上發表微軟研究院首席研究員、麻省理工學院公民媒體中心客座教授凱特·克勞福德的文章《對大資料的再思考》,從五個方面對大資料理論提出質疑。
大資料帶來變革
《大資料的興起》一文作者是近期引發熱議的專着《大資料時代:生活、工作與思維的大變革》作者肯尼思·庫克耶和維克托·邁爾—舍恩伯格(對,就是舍恩伯格,今日首篇文章就刊登了他在6月19日的演講全文)。在文章中,庫克耶和舍恩伯格肯定了大資料對社會的巨大變革能力,稱大資料不僅将改變人們的生活和工作,而且将改變人類認識和思考世界的方式。
兩人認為,随着技術環境的變化,一方面世界出現“資料爆炸”的現象,另一方面人類處理資料的能力也大為增強。由此,人們對待資料的方式出現了三個變化:第一,人們處理的資料從樣本資料變成全部資料;第二,由于是全樣本資料,人們不得不接受資料的混雜性,而放棄對精确性的追求;第三,人類通過對大資料的處理,放棄對因果關系的渴求,轉而關注互相聯系。這一切代表着人類告别總是試圖了解世界運轉方式背後深層原因的态度,而走向僅僅需要弄清現象之間的聯系以及利用這些資訊來解決問題。
《大資料的興起》列舉了大資料在醫學、消費品領域的應用執行個體。但作者同時認為,大資料的影響力絕不僅限于商業範疇,它将深遠地改變政府的運作方式和政治的性質。他們在文章中寫道,“在推動經濟增長、提供公共服務或進行戰争等方面,那些能夠有效利用大資料的人将擁有勝過别人的巨大優勢”。不過,兩位作者承認,大資料應用在公共服務領域比較成功的案例出現在城市這一級,因為在這個級别上擷取資料和利用資訊進行試驗要容易一些。
學者提出五質疑
克勞福德的文章認為,大資料是目前的時髦術語,但人們是否能依靠海量資料揭示人類行為的規律仍值得懷疑。她針對大資料理論從五個方面提出質疑。
第一,大資料中存在偏見和盲區。大資料的倡導者認為,“有了足夠的資料,數字就可以自己說話”。但克勞福德認為,數字無法自己說話。不論其規模有多大,資料集歸根到底是人類設計的産物,而大資料的工具并不能使人們擺脫曲解、隔閡和錯誤的成見。當大資料試圖反映人類所生活的社會化世界時,認清這些因素就尤為重要。偏見和盲區存在于大資料中,從大資料得出的結論并不比人為的意見更客觀。
第二,大資料在一定程度上可以使城市變得更加智能和高效,但具體效果如何取決于市政官員對資料及其局限性的了解。克勞福德稱,大資料的倡導者認為,“大資料将使我們的城市變得更加智能和高效”,在一定程度上确實如此。但另一方面,資料在生成或采集的過程中并不都是平等的,大資料集存在“信号問題”———即某些群眾和社群被忽略或未得到充分代表。是以,要想運用好大資料,市政官員必須對資料及其局限性有充分了解。
第三,大資料可能導緻基于群體的歧視。大資料的倡導者認為,“大資料對不同的社會群體不會厚此薄彼”,其理由是,原始資料的分析是在大規模水準上進行的,因而避免了基于群體的歧視。但克勞福德認為,實際情況并非如此。由于大資料能夠作出有關群體不同行為方式的論斷,而且其使用的主要目的是把不同個體歸入不同的群體中,是以大資料不僅不會避免群體歧視,還可能加重這一趨勢。
第四,隐私洩露是應用中的重要問題。克勞福德認為,大資料的倡導者關于“大資料是匿名的,是以它不會侵犯我們的隐私”一說大錯特錯。盡管許多大資料的提供者盡力消除資料中的個體身份,但身份重新被确認的風險仍然很大。鑒于利用大量公共資料集可以推斷很多資訊,這使洩露個人隐私成為“日益嚴重的擔憂”。
第五,大資料為科學研究提供了新的途徑,但不可斷言“大資料是科學的未來”。克勞福德稱,大資料的研究方法隻能統計某件事情發生的頻率和相關性,但不能得出因果關系。将大資料政策和小資料研究相結合也許是更好的科學研究途徑。
庫克耶和舍恩伯格也認識到了大資料理論的一些内在瑕疵。在《大資料的興起》一文結尾,兩位作者表示,大資料是一種資源和工具,它的目的是告知,而不是解釋;它意在促進了解,但可能導緻誤解———關鍵在于人們對它的掌握程度。他們認為,人們必須用一種不僅欣賞其力量、而且承認其局限的态度來接納大資料。
原文釋出時間為:2014-06-20
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号