天天看點

大資料的陰影

這是一個大資料的時代,商業、社會管理、科研、創業,言必稱大資料。

大資料(Big Data)又稱為巨量資料,指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資産。“大資料”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大資料時代》中提出,指不用随機分析法(抽樣調查)的捷徑,而是采用所有資料進行分析處理。是以,大資料差別于以往的資料收集的最本質差別是,抛棄人類之前限于成本的的抽樣分析方法,而是存儲一切,分析一切。

大資料的了解

這種“資料全存”的收集,在網際網路,甚至是移動網際網路出現之前的時代是不可想象的。現在,随着儲存能力、計算能力、網際網路與移動網際網路、智能手機的深入生活,收集資料的技術發達,充滿生活中的各個場景,“把資料全部存起來”成為一種可能。

資料雖然存起來了,但如何了解資料,卻成為一個問題。

在大資料的熱潮中,人們開始相信,隻要足夠好的技術,足夠多的資料,計算機能夠比人更了解他們的自己。

有一個非常經典的例子。一位男性顧客到全美第二大零售商塔吉特店中投訴,聲稱商店竟然給他還在讀書的女兒寄嬰兒用品的優惠券。後來發現,女兒真的已經懷孕了。這被宣揚成為資料比人更了解人的例子。

實際上,情況恰好相反。商場知道女兒懷孕,無非是收集了顧客的消費資料發現規律。比如,孕婦在懷孕頭三個月過後會購買大量無味的潤膚露;在頭20周,孕婦會補充如鈣、鎂、鋅等營養素;當女性開始大量采購無味肥皂和特大包裝的棉球時,說明她們的預産期要來了。然後,憑借這些資訊,商場提前郵寄相關促銷資訊。

實際上,并不是大資料更了解人的例子,甚至反應了機器的愚蠢,自作主張,把嬰兒的優惠用品寄給了還在讀書的女兒,而且還寄到了她家裡。當然,預測模型可以加入變量,比如年紀、職業、婚姻狀況來避免尴尬。但是,人是複雜的,有很多非理性因素,無法加入所有變量。

大資料與計算能力的關系就像一枚硬币的正反面一樣密不可分。大資料無法用單台的計算機進行處理,必須采用分布式架構,依托雲計算的分布式處理、分布式資料庫和雲存儲、虛拟化技術對海量資料進行分布式資料挖掘。但是,這種模式的計算能力僅是在數量上的增加。如果仍然是把資料放入模型,抽樣雖然并不時髦,但邊際效應仍然有效,少量的數量就能達到與大資料差不多的效果。

是以,隻有應用各種新的資料處理方法,“資料”才能成為“大資料”,才能從中發掘出新的意義,進而産生新的價值。機器計算相比大腦的優勢在與對于巨量數量的處理,如果機器也同時也能具有大腦的邏輯、分析、判斷、聯想、想象、情感能力,則可以輕易超越大腦的智能。

目前,依靠神經網絡的機器學習,人工智能已經初步嶄露頭角。在這種方法之下,随着資料量的積累,系統會越來越好。相比過去人工智能的方法很難受益于資料量的提升,新的方法之下,20%的貢獻來自方法的改進,80%來自資料量的提升,進而實作依靠資料量推動的,系統從量變到質變的飛躍。

但是,遺憾的是,機器的自主學習,自主對資料的了解,目前還限定在給定的範圍内。目前的機器學習,基于模仿大腦神經的回報機制,依據曆史經驗,人類的所有仿生工程學上的成功,取得飛躍,都是在徹底弄清楚生理過程的機制之後,比如,粗淺的模仿鳥的飛翔,可以造出飛行器,但飛機的基礎,是空氣動力學。現在人類大腦的腦科學的發展程度還遠遠不夠,甚至可以說對大腦的運作過程知之甚少。從這個角度看,人工智能了解大資料還為時尚早。是以,人類對于大資料的利用,目前來看,基本上還是基于收集技術上的發展。基于大資料的人工智能,未必有那麼樂觀。目前看來,大資料還沒有走出資料處理能力陰影的迹象。

大資料與隐私

不過,即使如此,變化早已發生。

這是一個大資料的時代,人人都在電子空間中留下了自己的痕迹。早上起來,打開手機,手機不斷與基站聯系,機主大概在什麼地方,經過了些什麼地方,就留下了痕迹;在路上,打開手機浏覽器又再次留下cookie資料,浏覽了些什麼網頁,很可能被别有用心者收集;或者交通卡,從哪裡進哪裡出,也被伺服器記錄;中午,吃了什麼,信用卡可以查詢到消費的場所,而飯店的記錄,甚至能精确到吃了什麼菜,幾個人;在上班的時候,使用聊天工具,可能留下痕迹,很多機關,也有記錄員工操作的軟體;下班了,打車軟體、聊天軟體都可以上傳GPS資料;晚上,在哪裡開了房,不但有消費資料,也有攝像頭精确記錄。這些資料綜合起來,不但可以清晰的描述一個人的生活軌迹、行為、甚至連愛好,乃至不願意被人發現的隐私,在别有用心的收集之下,都是清清楚楚的。

不留下這些資料,個人在現在的技術社會中,就難以舒适生活,甚至難以生存下去。因為手機、出行、聊天、支付,乃至整個現代生活都是建立在這些資料之上的、不留下資料,就無法生活。這就是所謂的大資料時代,我們就生活在這樣一個時代。

需要指出的是,這些資料,應該是與身份分離的。簡單的說,就是收集資料的平台,即使能知道每天城市所有人的出行軌迹,但是,他們必須不能知道,每一條出行的軌迹所對應的人的身份。但是,實際情況卻是,資訊的洩露比比皆是。

實際上,在現代技術社會中,公民不被監控,隻是由于不值得監控,或者在監控系統的機率之外。決定這個機率大小的,是監控系統的成本,比如硬體成本、軟體成本,人員成本,乃至部門間的溝通、行政成本。成本變小,公民被監控的機率就會越大。大資料極大的降低了這一成本。這雖然帶來了安全,卻同時減損了公民的自由。

在911襲擊後,美國政府為阻止恐怖主義已經涉足大規模資料挖掘。在《愛國者法案》的授權之下,前國家安全顧問約翰·波因德克斯特上司國防部整合現有政府的資料集,組建一個用于篩選通信、犯罪、教育、金融、醫療和旅行等記錄來識别可疑人的大資料庫。比如,FBI調查人員秘密從美國各大圖書館搜集讀者詳細的讀書記錄,以判斷是否受恐怖主義感染。該項目在一年後因國會擔憂公民自由權而停止。

但是,不難預見的是,在大資料時代,公民的個人隐私與自由,會被越來越多的大資料陰影所包圍。

不妨假設一下,2019年,蘋果8釋出,這時,手機已經不叫手機,而叫個人資訊終端,人們可以在這上面完成一切;2025年,打車軟體的大資料系統已經不需要個人發出打車需求,你出門的時候,就已經有車停在門口,并且知道你要去哪裡;2032年,一個無遠弗屆的資訊收集機制被建立起來,同年,國家統計局改名為國家大資料中心,一切已經不需要統計,一切發生的時候就已經被統計;2050年,市場取消,在大資料與智能制造的配合下,一切個性化的需求都可以被滿足;2084年,時間回到100年前。

這一切會發生嗎?應該不會,但是,某些令人憂慮的領域,卻很可能比令人興奮的領域,更早獲得大資料的優勢。

中國工業網是以工業新聞和資訊傳播為主業的綜合性網絡媒體。 作為國家工業和資訊化部的合作夥伴,開發并營運了國家履行《禁止化學武器公約》工作辦公室官方網站和履約資訊管理系統。中國工業網擁有企業會員5萬餘家,個人會員50萬人,合作協會100多家,合作媒體近千家。

本文轉自d1net(轉載)

繼續閱讀