天天看點

帶你讀《資料資産》第一章緒論1.1界定資料(一)

資料是數字經濟的關鍵要素,已成為國家重要的戰略性資源,正逐漸成為一種極其重要的新類型資産,驅動經濟社會發展。本章從技術角度界定了資料的内涵,并在此基礎上介紹了資料資源、資料資産、資料要素等基本概念。

1.1      界定資料 

資料通常可以被分為電子資料和非電子資料兩大類。電子資料是指計算機中存儲的資料;非電子資料主要是紙質媒介中的資料,例如傳統圖書館中的資料。由于以紙質形式和電子形式存儲的資料無論在規模上還是在流通方式上都存在本質差別,加之“大資料”的含義隻是指電子資料,是以,本書在研究、讨論資料資産時,将資料資源界定在電子資料的範疇,而不考慮非電子資料。

1.1.1         資料的含義

“資料”一詞最早出現在拉丁語中,含義是“給予的事物”,後來其随着數學和神學進入英語[1]。随着經濟社會的發展和技術的進步,出現了很多關于資料的不同認識和定義。

·  聯合國歐洲經濟委員會(theUnitedNationsEconomicCommissionforEurope,UNECE)将資料定義為資訊的實體表現形式,這一表現形式适用于人工或自動化手段交流、轉譯或處理[2]。

Systems,CCSDS)給出的資料定義是以适合于交流、解釋或加工的形式化方式進行的可重新解釋的資訊表示形式。比特序列、數值表、頁面中的字元、講話錄音、月球岩石标本等都是資料[3]。

·  國際資料管理協會(DAMAInternational)認為資料是以文本、數字、圖形、圖像、聲音和視訊等格式對事實進行表現的形式,是資訊的原始材料[4]。

·  曾任國際科學理事會(InternationalScienceCouncil,ISC)資訊和資料戰略協調委員會(StrategicCoordinatingCommitteeonInformationandData,SCCID)成員的彼得·福克斯(PeterFox)和瑞·海瑞斯(RayHarris)認為資料至少包括數字觀測、科學監控、傳感器資料、中繼資料、模型輸出和場景、定性或觀察的行為資料、可視化資料、出于行政或商業目的而收集的統計資料;資料通常被視為研究過程的輸入[5]。

·  2019年美國《開放的、公開的、電子化的及必要的政府資料法案》(TheOpen, Public, Electronic, andNecessaryGovernmentDataAct,簡稱《開放政府資料法案(TheOPENGovernmentDataAct)》)将資料定義為以任何形式或媒體記錄下來的資訊;開放政府資料時特别指明資料需要滿足機器可讀的條件。

傳統意義上的資料是指數值,例如溫度為 26.6℃、長度為100m等,但 IT領域将資料概念擴大了,資料還包括“Asset”“資料資産”“2020/07/31”等符号、字   符、日期形式的資料,以及文本、聲音、圖形、圖像和視訊等類型的資料,而且政府檔案、出行記錄、住宿記錄、軟體聊天記錄、網上購物記錄、銀行消費記錄等也都是資料。

資料存儲形式主要有紙質(現實世界實物型)和電子媒介(網絡空間(CyberSpace)數字型)兩種。一方面,這兩種形式無論在規模還是在流通方式上都存在本質差別,例如 1PB的電子資料相當于 30個中國國家圖書館 2017年的藏書規模,而

1PB規模是大資料領域的一個基礎度量。網絡空間裡面的資料和網絡空間外面的資料是有很大差異的,網絡空間裡面的資料是通過計算機處理的,而網絡空間外面的資料是人通過手工或腦力直接處理的。顯然,我們很難靠人力去讀完 30個中國國家

資料資産,圖書館裡面的圖書,并進行知識整理,但 1PB的資料是大資料技術經常要處理的。另一方面,30個中國國家圖書館的圖書資産和 1PB資料的資産無論在度量方面還是計價方面也都是完全不同的。

是以,本書将資料界定如下。

資料:是指網絡空間裡的所有東西,是網絡空間的唯一存在,即電子資料。網絡空間:是指計算機網絡、廣電網絡、通信網絡、物聯網、衛星網等所有人

造網絡和裝置構成的空間,這個空間真實存在。電腦、手機、移動硬碟等都是網絡空間的組成部分。現在,空調、冰箱、自動窗簾、電子門鎖等也已經成為網絡空間的組成部分。

如果把網絡空間比喻成碗,那麼網絡空間這個碗裡裝的是“資料”。網絡空間裡的任何東西都是資料。

1.1.2         資料的屬性

網絡空間的資料具備一些特有的屬性[6]。

·  實體屬性:是指資料在存儲媒體中以二進制串的形式存在。資料的實體存在占據了存儲媒體的實體空間,是資料真實存在的表現,并且是可度量、可處理的。資料的實體存在使資料可以直接被用于制作資料副本、進行資料傳輸,也可以通過特殊的方法直接從實體存在勘探資料、破解資料。

·  存在屬性:是指資料以人類可感覺(通常為可見、可聽)的形式存在。在網絡空間中,實體存在的資料可以通過 I/O裝置以某種形式(如顯示、聲音)展現出來,被人所感覺、所認識。人們通過 I/O裝置感覺到的資料才能被認為是存在的資料,否則隻能猜測其存在或不存在。

·  資訊屬性:一個資料是否有含義,含義是什麼,這是資料的資訊屬性。通常,資料通過解釋之後就會具有含義(即解釋清楚資料表示什麼),資料的含義就是資訊;也有一些資料是沒有含義的,例如,一個随意輸入的字元串“20xsaff産 7s9f9dsf7w2”就沒有含義,但它是資料。

·  時間屬性:時間是自然界中的一個基本要素,其使自然界萬物朝着一個不可逆的方向發展前進,讓人類能夠區分過去和未來。資料界沒有時間的概念,資料的存在沒有過去和未來。将一個資料項item在 t1、t2、t33個時刻分别賦予值 100、200、100,則 t1和 t3時刻 item的值是相同的,于是可以說在 t3時刻,item回到 t1時刻的樣子。這是資料界與自然界的最大差別。在自然界,任何事物在任何兩個時刻都是不同的。如果資料要被用來表示自然界一個随時間變化的事物,對應于自然界的時間概念,那麼需要給資料加蓋時間戳,例如時間戳“2009年9月1日9時17分38秒”。事實上,在資料界,資料沒有壽命的概念。雖然資料的載體會老化,但資料不會老化,可以通過更換存放資料的載體來保證資料一直被存儲在網絡空間中。

圖 1-1中 4個列分别代表 4個資料集,它們以(0,1)二進制代碼的形式存放在儲存設備中,占用實體存儲空間,展現了資料的實體屬性。這 4個資料集通過 I/O裝置分别以表格、文字、圖等形式被看見,使人們知道在存儲空間存在着 4個資料集,

展現了資料的存在屬性。通過對這 4個資料集進行讀取和解析來擷取資訊,但資訊的擷取受知識體系、技術水準等因素影響,讀取和解析出來的資訊會不盡相同,這展現了資料的資訊屬性。

·  第一個資料集(第一列)。可以看到存在屬性和資訊屬性是相同的,資訊較容易擷取。

·  第二個資料集(第二列)。看到的存在屬性是“铷惈佺ぜ屆嘟轲鉯 bú偠孒,卧隻楆誐亻門啲暧,讠上藦騩漴拝,讓兲駛發槑~”,其資訊屬性是“如果全世界都可以不要了,我隻要我們的愛,讓魔鬼崇拜,讓天使發呆~”,這類資料集資訊的擷取需要具備相應的知識體系。

·  第三個資料集(第三列)。存在屬性是一個圖,看不出是什麼内容,需要通過技術進行處理,經過處理後讀取出的資訊屬性是一頭大象,這類資料集資訊的擷取需要通過技術手段,技術手段越高,擷取的資訊可能就越多。

·  第四個資料集(第四列)。看到的存在屬性是一堆無序的字元,無論通過知識體系還是技術手段都讀取不了任何内容,因為它是一堆亂碼,不具有任何資料資産

帶你讀《資料資産》第一章緒論1.1界定資料(一)

圖 1-14個資料集的屬性

繼續閱讀