天天看點

帶你讀《資料自治》第一章緒論1.1資料是什麼(一)

在大資料浪潮的推動下,從資料資源到資料資産再到資料要素,資料的重要性持續提高,“資料是數字經濟的關鍵要素”這一論斷已經形成共識。持續的資訊化使得網絡空間形成了龐大的資料資源。對資料資源進行開發利用而形成的資料産業是巨大的。本章界定了資料的内涵,介紹了資料的屬性及其與物質的差異、與資料相關的基本概念(包括大資料、資料界、資料資源、資料資産、資料要素等),還介紹了資料産業、資料權屬、資料流通、資料自治等内容。本章是本書的導引。

本章由朱揚勇撰寫。

1.1 資料是什麼

以前常用的一組名詞是資訊、資訊科學、資訊技術和資訊産業等,現在常用的一組名詞是資料、資料科學、資料技術和資料産業。為什麼現在叫“大資料”而不是“大資訊”?為解決該問題,首先要理清資料是什麼,有什麼特性。

1.1.1         資料界

1.1.1.1               資料是什麼

傳統上,資料是指 96、1011、8084這樣一些數值型資料,其實,資料還包括“dataology”“上海市資料科學重點實驗室”“2013/09/06”等符号、字元、日期形式的資料,也包括文本、聲音、圖像、照片和視訊等類型的資料,購物記錄、住宿記錄、旅行記錄、銀行消費記錄、微網誌、微信、政府檔案等也都是資料。

一般認為資料是事實或觀察的結果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經加工的原始素材。

本書對資料的定義如下:資料是指被輸入網絡空間中的任何東西,是網絡空間中的唯一存在。 

之是以這樣定義資料,是因為大資料、資料科學、資料技術、資料資源、資料資産、資料要素等概念所指的資料都是網絡空間的資料。網絡空間中的資料和網絡空間外面的資料有很大差異,網絡空間中的資料是通過計算機處理的,而網絡空間外面的資料是人們手工或利用腦力直接處理的。

1.1.1.2               資料界是什麼[1-2] 

資料界被定義為網絡空間中的所有資料。而網絡空間是資料的載體,不是資料界的組成部分。

随着資訊化程序的不斷發展,資料被持續、大規模地生産,并存儲在網絡空間中,形成資料界。雖然是人生産了資料,并且人還在不斷生産資料,但資料界中的資料已經表現出不為人所控制、未知性、多樣性和複雜性等自然界特征。

(1)資料不為人所控制

名詞“資料爆炸”“資訊爆炸”已經出現 30  多年了,自進入大資料時代以來,人們普遍認為資料每2~3年就會翻一番,且人們無法控制資料的增長,甚至也不了解資料的增長速度。人們無法控制的還有計算機病毒的大量出現和傳播、垃圾郵件泛濫、網絡的資料攻擊增多、資料濫用等。人們使用各種電子裝置生産資料,例如拍照、拍X光片、做 CT檢查、做各種檢驗等;人們的出行、工作、購物消費、網絡會議、娛樂、線上經濟等也都在快速、大規模地生産資料;計算機病毒還能自動、快速、大規模地傳播資料。這種大規模的随時随地生産資料的情形是任何政府群組織都不能控制的。雖然從個體上來看,其生産資料是有目的的、可以控制的,但是從總體上來看,資料的生産是不以人的意志為轉移的,是以一種類似自然的方式增長的。是以,我們說資料的增長和流動不為人所控制。

(2)資料的未知性

在網絡空間中出現了大量未知的資料、未知的資料現象和規律,這是資料科學出現的原因。

資料的未知性主要展現在以下幾個方面。

•  資料表示了未知的現實事物:早期人們将已知的事情交給計算機完成,将已知的資料存儲到計算機中,将已知的算法寫成計算機程式。資料、程式和程式執行的結果都是已知的或可預期的。事實上,這期間計算機的主要作用是幫助人們工作,提高工作效率。是以,計算機所做的事情和生産的資料都是清楚的。随着裝置和儀器的數字化程序不斷發展,各種裝置都在生産資料,于是大量人們并不了解的資料被生産出來并存入網絡空間。例如,自從人類基因組計劃(HumanGenomeProject,HGP)開始後,巨量的 DNA資料被存儲到網絡空間中,這些資料是通過 DNA測序儀器檢測出來的,是各種生命的 DNA序列資料。雖然人們将 DNA序列存入了網絡空間,但在将其存入網絡空間時,人們并不了解 DNA序列資料表達了什麼,有什麼規律,是什麼基因片段使得人之間相同或不同,物種進化的基因如何變化,是否有進化或突變,等等。

•  網絡空間自有的未知資料:網絡空間自有的非現實資料更是未知的。例如,電子遊戲創造了一個全新的活動區域,這個區域的所有場景、角色都是虛拟的,還有虛拟貨币。這些虛拟區域的事物通過遊戲玩家與現實世界聯系在一起。是以,遊戲世界表現出的和内在的東西在現實世界中是不存在的,是未知的。

•  不能看到資料反映的現實:也許網絡空間中某些資料早就顯示人類将面臨一場能源危機,人們卻無法從資料中得到這樣的知識。雖然每個人都是将個人已知的事物和事情存儲到網絡空間中,但是,當一個組織、一個城市或一個國家的公民都将其個人工作、生活中的事物存儲到網絡空間中時,資料将反映這個組織、城市或國家的整體狀況,包括國民經濟和社會發展的各種規律和問題。這些由各種資料綜合反映的社會經濟規律是人們事先不知道的,也就是說,資訊化工作将社會經濟規律這些未知的東西也存儲到了網絡空間中。

•  無法判别資料的真實性:人們不知道從網際網路上獲得的資料是否是正确的和真實的,當人們在兩個不同的網站上對相同的目标進行搜尋通路時,得到的結果可能是不一樣的,人們無法判斷哪個結果是正确的。

•  如何認識資料界:人們不知道資料界有多大,資料界以怎樣的速度在增長,資料界的資料是否會阻塞整個網絡,等等。

(3)資料的多樣性和複雜性

随着技術的進步,存儲到網絡空間中的資料的類别和形式越來越多。早期的資料主要通過鍵盤錄入,大部分是字元資料;從 20世紀 90年代開始,多媒體裝置、數字化裝置的大量出現(例如音頻、視訊裝置等)使資料的生産方式變得多樣、生産資料的速度飛速加快,遠遠超出了資訊技術進步的速度,這也為現在的大資料埋下伏筆。資料的多樣性是指資料類别多樣,如不同語言的資料、不同行業的資料、空間資料、海洋資料、DNA資料等,還包括網際網路中/不在網際網路中的資料、公開/非公開的資料、企業/政府的資料等。資料的複雜性展現在兩個方面:一是資料具有各種各樣的格式,包括各種專用格式和通用格式;二是資料之間存在着複雜的關聯性。

資料界已經形成。由于網絡空間的資料已經表現出不為人所控制、未知性、多樣性和複雜性等自然界特征,沒有哪個人、哪個組織、哪個國家能夠控制網絡空間中資料的增長、流動。很多資料表達的是現實中的事物,還有很多(甚至是更多)資料是與現實無關的,這些資料隻在網絡空間中存在,不表示任何現實的事物,是以這是另外一個世界——資料界。

繼續閱讀