大資料的陰影

這是一個大資料的時代，商業、社會管理、科研、創業，言必稱大資料。

大資料(Big Data)又稱為巨量資料，指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資産。“大資料”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大資料時代》中提出，指不用随機分析法(抽樣調查)的捷徑，而是采用所有資料進行分析處理。是以，大資料差別于以往的資料收集的最本質差別是，抛棄人類之前限于成本的的抽樣分析方法，而是存儲一切，分析一切。

大資料的了解

這種“資料全存”的收集，在網際網路，甚至是移動網際網路出現之前的時代是不可想象的。現在，随着儲存能力、計算能力、網際網路與移動網際網路、智能手機的深入生活，收集資料的技術發達，充滿生活中的各個場景，“把資料全部存起來”成為一種可能。

資料雖然存起來了，但如何了解資料，卻成為一個問題。

在大資料的熱潮中，人們開始相信，隻要足夠好的技術，足夠多的資料，計算機能夠比人更了解他們的自己。

有一個非常經典的例子。一位男性顧客到全美第二大零售商塔吉特店中投訴，聲稱商店竟然給他還在讀書的女兒寄嬰兒用品的優惠券。後來發現，女兒真的已經懷孕了。這被宣揚成為資料比人更了解人的例子。

實際上，情況恰好相反。商場知道女兒懷孕，無非是收集了顧客的消費資料發現規律。比如，孕婦在懷孕頭三個月過後會購買大量無味的潤膚露;在頭20周，孕婦會補充如鈣、鎂、鋅等營養素;當女性開始大量采購無味肥皂和特大包裝的棉球時，說明她們的預産期要來了。然後，憑借這些資訊，商場提前郵寄相關促銷資訊。

實際上，并不是大資料更了解人的例子，甚至反應了機器的愚蠢，自作主張，把嬰兒的優惠用品寄給了還在讀書的女兒，而且還寄到了她家裡。當然，預測模型可以加入變量，比如年紀、職業、婚姻狀況來避免尴尬。但是，人是複雜的，有很多非理性因素，無法加入所有變量。

大資料與計算能力的關系就像一枚硬币的正反面一樣密不可分。大資料無法用單台的計算機進行處理，必須采用分布式架構，依托雲計算的分布式處理、分布式資料庫和雲存儲、虛拟化技術對海量資料進行分布式資料挖掘。但是，這種模式的計算能力僅是在數量上的增加。如果仍然是把資料放入模型，抽樣雖然并不時髦，但邊際效應仍然有效，少量的數量就能達到與大資料差不多的效果。

是以，隻有應用各種新的資料處理方法，“資料”才能成為“大資料”，才能從中發掘出新的意義，進而産生新的價值。機器計算相比大腦的優勢在與對于巨量數量的處理，如果機器也同時也能具有大腦的邏輯、分析、判斷、聯想、想象、情感能力，則可以輕易超越大腦的智能。

目前，依靠神經網絡的機器學習，人工智能已經初步嶄露頭角。在這種方法之下，随着資料量的積累，系統會越來越好。相比過去人工智能的方法很難受益于資料量的提升，新的方法之下，20%的貢獻來自方法的改進，80%來自資料量的提升，進而實作依靠資料量推動的，系統從量變到質變的飛躍。

但是，遺憾的是，機器的自主學習，自主對資料的了解，目前還限定在給定的範圍内。目前的機器學習，基于模仿大腦神經的回報機制，依據曆史經驗，人類的所有仿生工程學上的成功，取得飛躍，都是在徹底弄清楚生理過程的機制之後，比如，粗淺的模仿鳥的飛翔，可以造出飛行器，但飛機的基礎，是空氣動力學。現在人類大腦的腦科學的發展程度還遠遠不夠，甚至可以說對大腦的運作過程知之甚少。從這個角度看，人工智能了解大資料還為時尚早。是以，人類對于大資料的利用，目前來看，基本上還是基于收集技術上的發展。基于大資料的人工智能，未必有那麼樂觀。目前看來，大資料還沒有走出資料處理能力陰影的迹象。

大資料與隐私

不過，即使如此，變化早已發生。

這是一個大資料的時代，人人都在電子空間中留下了自己的痕迹。早上起來，打開手機，手機不斷與基站聯系，機主大概在什麼地方，經過了些什麼地方，就留下了痕迹;在路上，打開手機浏覽器又再次留下cookie資料，浏覽了些什麼網頁，很可能被别有用心者收集;或者交通卡，從哪裡進哪裡出，也被伺服器記錄;中午，吃了什麼，信用卡可以查詢到消費的場所，而飯店的記錄，甚至能精确到吃了什麼菜，幾個人;在上班的時候，使用聊天工具，可能留下痕迹，很多機關，也有記錄員工操作的軟體;下班了，打車軟體、聊天軟體都可以上傳GPS資料;晚上，在哪裡開了房，不但有消費資料，也有攝像頭精确記錄。這些資料綜合起來，不但可以清晰的描述一個人的生活軌迹、行為、甚至連愛好，乃至不願意被人發現的隐私，在别有用心的收集之下，都是清清楚楚的。

不留下這些資料，個人在現在的技術社會中，就難以舒适生活，甚至難以生存下去。因為手機、出行、聊天、支付，乃至整個現代生活都是建立在這些資料之上的、不留下資料，就無法生活。這就是所謂的大資料時代，我們就生活在這樣一個時代。

需要指出的是，這些資料，應該是與身份分離的。簡單的說，就是收集資料的平台，即使能知道每天城市所有人的出行軌迹，但是，他們必須不能知道，每一條出行的軌迹所對應的人的身份。但是，實際情況卻是，資訊的洩露比比皆是。

實際上，在現代技術社會中，公民不被監控，隻是由于不值得監控，或者在監控系統的機率之外。決定這個機率大小的，是監控系統的成本，比如硬體成本、軟體成本，人員成本，乃至部門間的溝通、行政成本。成本變小，公民被監控的機率就會越大。大資料極大的降低了這一成本。這雖然帶來了安全，卻同時減損了公民的自由。

在911襲擊後，美國政府為阻止恐怖主義已經涉足大規模資料挖掘。在《愛國者法案》的授權之下，前國家安全顧問約翰·波因德克斯特上司國防部整合現有政府的資料集，組建一個用于篩選通信、犯罪、教育、金融、醫療和旅行等記錄來識别可疑人的大資料庫。比如，FBI調查人員秘密從美國各大圖書館搜集讀者詳細的讀書記錄，以判斷是否受恐怖主義感染。該項目在一年後因國會擔憂公民自由權而停止。

但是，不難預見的是，在大資料時代，公民的個人隐私與自由，會被越來越多的大資料陰影所包圍。

不妨假設一下，2019年，蘋果8釋出，這時，手機已經不叫手機，而叫個人資訊終端，人們可以在這上面完成一切;2025年，打車軟體的大資料系統已經不需要個人發出打車需求，你出門的時候，就已經有車停在門口，并且知道你要去哪裡;2032年，一個無遠弗屆的資訊收集機制被建立起來，同年，國家統計局改名為國家大資料中心，一切已經不需要統計，一切發生的時候就已經被統計;2050年，市場取消，在大資料與智能制造的配合下，一切個性化的需求都可以被滿足;2084年，時間回到100年前。

這一切會發生嗎?應該不會，但是，某些令人憂慮的領域，卻很可能比令人興奮的領域，更早獲得大資料的優勢。

中國工業網是以工業新聞和資訊傳播為主業的綜合性網絡媒體。作為國家工業和資訊化部的合作夥伴，開發并營運了國家履行《禁止化學武器公約》工作辦公室官方網站和履約資訊管理系統。中國工業網擁有企業會員5萬餘家，個人會員50萬人，合作協會100多家，合作媒體近千家。

本文轉自d1net（轉載）

大資料的陰影

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark