天天看點

大資料與人的主體性

點選、流量的多少并不能客觀地概括“我們是誰”,而是關于希望與訴求的一種個性化的展現。目前針對“大資料”的定義給人的印象是缺乏主體性,我們不能滿足于資料的産生與人有關,更要意識到,資料本身就是由人創造。這就是人的資料。

我們所處的時代還有一個比較拗口的名字,叫做“拍位元組時代”(petabyte era),所謂“拍位元組”即千萬億位元組或千兆位元組,屬于較進階的儲存機關。人們不僅關注存儲媒體的龐大體量,也在談論資料内容的急速增長。“我們每天創造2.5萬兆位元組的資料,90%的現有資料在過去兩年内創造。”這種說法的準确出處是ibm公司在其官網上釋出的“什麼是大資料”,類似的結論常常被一些媒體所轉述。

不光是媒體,包括商界、學術期刊都開始熱衷于研究大資料的特别之處。2013年,《哥倫比亞新聞評論》(columbia journalism review)上有一篇文章,形容“大資料”是“一個包羅萬象的标簽”——通過分析大量的資料來重新認識世界。被譽為“資訊時代的精神領袖”的克裡斯·安德森(chris anderson)在《連線》(wired)雜志上曾預言,資料洪流将導緻科學方法不合時宜,他所謂的“理論的終結”正在一步步演變為現實——如此龐大的資料是現成的,沒有必要大費周章地提出假設,然後不厭其煩地進行科學驗證。如果善于擷取和分析資料,它們自身就可以說明很多問題。

何謂大資料?一個資料集合需要滿足三個“v”的次元,即大量(huge in volume)、高速(high in velocity)、多變(diverse in variety),有時也會附帶第四點,真實或準确(veracity),這可以從不同角度進行解讀。一旦掌握了全部人口的資料,就意味着産生新的可能性。在熱烈的讨論中,往往被遺忘的,或者暫時被忽視的是這些新鮮出爐的位元組有多少是基于個人資料創造。值得一提的是,三個“v”的次元是15年前由美國高德納公司分析員道格·萊尼(doug laney)提出,當時用以描述資料管理的核心問題,後來經過重新演繹,用來定義大資料。

哈佛大學科學史系助理教授麗貝卡·萊莫夫(rebecca lemov)在課上講授大資料主題時,總喜歡提到美國男星查爾頓·赫斯頓(charlton heston)主演的反烏托邦科幻電影《超世紀諜殺案》(soylent green)。影片在1973年上映,描繪了2022年的未來世界——由于污染、氣候變暖和人口過剩導緻資源枯竭,蔬菜水果成為稀有的奢侈品,大多數人隻能依賴于有機食品(soylent)維持生命,官方口徑是由大豆(soy)和扁豆(lentil)制成。事實并非如此,男主人公經過調查後發現,有機食品是用人做的——“soylent green is people”,這一幕出現在影片結尾處。

萊莫夫套用了這句經典台詞,稱“大資料就是人”。關于大資料的定義,大部分都沒有考慮到與生俱來的人性,也沒有揪住意味深長的啟示,比如技術與不斷改變的自我定義的關系。一組不同以往的新資料,源于人類的日常生活——幾乎不用深思熟慮,通過一個簡單動作就能完成,推特、臉書、谷歌搜尋、線上評論、一鍵下單。這些是“我”的模糊圖像,新的虛拟生活被轉換為算法處理。

對于上述資料的生産現場,人類地理學者羅伯·基欽(rob kitchin)最近做過編目,包括進貨量的記錄、數字裝置對其使用曆史的儲存和傳播(如手機)、事務處理日志和數字網絡的互動(如郵件和網上銀行)、網站或軟體導航所帶來的點選流量、嵌入物體或環境的傳感器所收集的測量資料、對機讀對象進行的掃描(如條形碼)、車載資通系統、社交媒體的資訊釋出,大量的、動态的、細化的、關聯的資料流由此形成。

2012年,沃爾瑪每小時創造2.5千萬億位元組資料,涉及逾100萬筆客戶交易。同年,臉書宣布每天處理25億個頁面(連結與評論)、27億個點贊、3億張上傳的圖檔。與此同時,精細資料的收集場合與方法一直在更新。今年2月,臉書修改了提供給使用者的性别設定,除了傳統的男/女,還有56種新的非傳統性别。

從輸入資訊中導出的持續不斷的資料軌迹很快投入應用。地圖上的資料流不但可以告訴你所在的位置,還能預判你的目的地。警方多了一個得力助手,在犯罪結論認定前,先通過資料對嫌疑對象的行為範式進行分析識别。“大資料是人”,這可以從兩方面來了解:大資料由我們的點選、導航的偏好和行為所創造,也随之塑成了許多重大的社會政策。

有文化批評人士指出,大資料所帶來的新式精神控制能夠影響美國大選,也有人稱其為貪婪的人類工程。哈佛商學院教授肖莎娜·祖波夫(shoshana zuboff)的觀點是,行為資料的利用會導緻一系列破壞性的後果,尤其是隐私、自治、道德理性等,負面效應可能要持續幾十年。在她看來,這不過是一種新的充滿惡意的資本主義。

目前針對“大資料”的定義給人的印象是缺乏主體性,沒有起碼的人的角度。一批從事技術研究的社會科學家發起倡議,要求研究方式從“以資料為主”轉向“以人為本”,避免過分倚重資料導向的研究路徑,沒有給予“人”足夠的重視,後者才是社會學研究的核心。這樣的學術自覺起到了一定的作用,卻也忽視了一個事實:資訊追蹤的資料本來就是由人構成的。

盡管打着未來主義的旗号,但是大資料以及資料導向的科學與社會科學的方法史産生了強烈的共鳴。20世紀,社會科學門類逐漸發展分化,社會學差別于人類學、社會心理學差別于經濟學,各自形成專業、興趣領域以及特有的工具。主流的、專業的社會科學富于各種技巧,比如資料析取、場景設定等。1924年至1926年,美國社會學伉俪林德夫婦(robert and helen lynd)在印第安納的曼西開展了“中鎮研究”(middletown study),他們采取了一種結合了人類學與社會學的方法,包括資料收集、訪談、參與觀察、問卷調查以及其他形式。正如曆史學家莎拉·艾格(sarah e igo)在《均标美國人》(the averaged american)中寫道:“任何細枝末節的事實都不會被錯過,從七年級課本的内容到時下熱門的電影,從在洗衣機上花費的時間到居民的庭院面積。”

1947年,心理學家羅傑·巴克(roger barker)在堪薩斯的奧斯卡盧薩建立了一間社會科學實驗室,他和同僚們定期收集關于“日常生活”的資料,包括一些并不引人注意的小事。其中有這麼一條記錄:“1949年4月26日,周二,上午7:01,七歲的雷蒙德搖搖晃晃地撿起一隻襪子,慢慢吞吞地套進左腳時,媽媽來了句玩笑——你就不能把眼睛睜開嗎?”諸如此類的瑣碎内容構成了社會學研究的另一種資源,随着城市變遷、光陰流逝,這樣的資訊可以幫助我們重溫當時的日常生活。開拓性的社會學研究除了小的個體,還關注大的群體。二戰後,人類學家麥爾福·史拜羅(melford spiro)在西太平洋上的一座島上給當地人提供心理測試,附近的環礁則進行着核試驗。為了學術研究,史拜羅的資料挖掘面向全部人口。

到了20世紀後半葉,城市的定居者越來越習慣于在任何場合回答與自己有關的問題,著名的《金賽報告》(kinsey report)是在數以千計份的訪談樣本基礎上完成。哈佛商學院的研究團隊曾在伊利諾伊的西塞羅找了一家工廠,發放了20000份調查問卷,試圖弄清其他學者所提到的“難以捉摸的現象”。值得一提的是,受訪對象已經開始基于自己的目的來參與這項調查,偶爾提出尖銳的問題、煽動不滿情緒、調侃來訪的社會學家。

距今不遠的未來某一天,人們回看今日,會為我們的天真無邪感到不可思議——如此癡迷新技術,卻沒能發現行為資料資源的價值,輕而易舉地将它們洩露出去。這是一種可能性。另一種可能的情形是,目前看來仍是新的資料采集概念遭到解構,也許是規模,也許是粒度,這種趨勢其實很早就已經出現了。

白宮政府新近釋出的一份關于大資料的報告稱:“技術軌道顯而易見,今後越來越多的個人資料将會産生,但與此同時,必然處于控制之下。”萊莫夫則重申了她的看法:資料的産生不隻是與人有關,它同時也是由人所創造,這就是人的資料。

====================================分割線================================

本文轉自d1net(轉載)

繼續閱讀