天天看點

帶你讀《資料自治》第三章資料權3.1關于資料的活動(一)

從經濟活動視角看,資料的活動主要有資料生産再生産、資料出版、資料使用和資料服務、資料交易、資料科學研究 5個方面。下面分别進行介紹。

3.1.1         資料生産再生産

一般地,資料生産得到的是資料資源或者資料的初級産品,可以直接供最終使用者使用,也可以作為原材料(初級産品)進行再生産,形成進階别的資料産品或資料服務。

(1)資料生産

資料生産一般是指将現實事務資訊化,進而在網絡空間形成資料,也包括直接将資料輸入網絡空間。例如,證券交易行情資料是證券交易所資訊化系統生産的資料,統計局的人口資料則是人口普查員直接錄入的資料,街頭攝像頭則直接采集了圖像資料。

資訊化是資料的主要來源。資訊化将人們過去手工做的事情轉換成由計算機來做,計算機在處理業務時會産生資料;資訊化還通過攝像頭、錄音筆、電子儀器裝置、傳感器等直接将現實的事物采集到網絡空間中變成資料。本質上,所有資訊化的結果都是在網絡空間中形成資料。是以,從資訊化的視角來看,資料是資訊化的副産品;但從網絡空間的視角來看,資訊化的本質是生産資料的過程。

除了資訊化外,人們還直接在網絡空間中創造資料,例如,直接在鍵盤上輸入現實中沒有的資料或者編寫程式代碼。

(2)資料再生産

資料再生産是指根據已有的資料,運用資料技術生産出新的資料的過程。資料再生産包括資料彙集、資料清洗、資料可視化、資料分析等。例如,搜尋引擎将各個Web網頁的資料組織起來形成新的資料,這是一個資料再生産過程,然後搜尋引擎利用再生産形成的資料向使用者提供資料服務;又如,證券資訊服務商将證券交易所的證券行情資料再生産成 K線圖、移動平均線、KDJ圖、布林線(BOLL)圖等新的資料;又如,企查查将全國工商登記資料進行了再生産。大部分資料處理、資料分析技術可以用于資料再生産。

從資料的生産者來看,資料可以分為私有資料、公共網絡資料、多方生産的資料(如圖3-1所示)[1-3]。

•  私有資料是指由個人、單個法人自己生産的資料,這些資料由生産者自己保管、供内部使用、不對外公開、不涉及第三方利益。

•  公共網絡資料是指公開網絡上的資料。這些資料來源多樣、生産方式多樣,包括自由上傳的資料、公開資料、公開傳感資料等。

•  多方生産的資料是最常見的資料生産形式。例如,電子商務、銀行證券、電信營運、社交網絡、娛樂遊戲、網絡教育、醫療健康、共享經濟、線上經濟等網絡平台的資料幾乎都是由使用者、支付平台等多方生産的。

帶你讀《資料自治》第三章資料權3.1關于資料的活動(一)

圖 3-1從資料生産者看資料

(3)資料存儲

資料需要存儲在網絡空間。一般來講,資料生産者可以妥善存放自己生産的資料,也可以将資料存儲在雲服務商的雲儲存設備中。多方生産的資料通常存放在平台服務商的儲存設備中。

3.1.2         資料出版

資料出版早期是指科學資料出版,出版機構 PensoftPublisher認為:資料出版是指将資料上傳到網際網路進行公開,并支援除資料提供者以外的組織機構或個人下載下傳、分析、複用以及引用資料[4]。維基百科的定義是:資料出版是以出版的形式公開科研資料以便他人使用的行為,這是為了公衆随意使用科研資料而提供某些資料或資料集的實踐,這種實踐是開放科學運動的一個有機組成部分。這一實踐帶來的益處在多學科領域中獲得了廣泛共識。後來一些學者把政府資料公開也納入資料出版[5],其目的是将資料在公共資料庫或網站上公開,以實作資料開放共享,這是政府開放資料運動的重要内容。

資料出版主要有兩個目的,一個是使生産的資料達到一定的規範,以友善使用和流通,另一個是宣示資料的所有權。

(1)使資料達到一定的規範

由于資料類型和來源的多樣性,簡單地将資料公開并不适合公衆使用。簡單地公開資料對于公衆來說無異于看天書,甚至會出現無法讀取資料的情況,是以有必要像圖書出版一樣建立一個相對統一的規範,使得公衆易于使用公開的資料,資料出版就是這樣一種實踐。資料出版可以被看作将已有的資料進行整理後出版的一種活動。嚴格意義上來說,資料出版屬于資料生産再生産的一個環節,使生産的資料達到一定的規範要求、形成一定的規模,以便公衆使用,包括下載下傳、分析使用、再生産等。

(2)宣示資料的所有權

盡管科學資料出版已經有 30多年曆史了,但是科學資料出版和引用隻是科學家的自律行為,尚沒有法律限制,資料出版的權益宣示作用并沒有表現出來。資料資産、資料要素等概念的快速發展和實踐要求從方法上解決資料确權的問題,資料出版的更大作用應該是資料所有權的宣示[6]。在資料确權比較困難的大背景下,資料出版是一種可行的資料确權方式,也是資料資産化的一項工作[7-8]。資料的生産比較困難,相比于資料生産,資料複制的成本極低,資料在網絡空間中的傳播比較容易,這導緻人們在使用資料時往往并不知道這些資料從哪裡來、是誰生産的、歸誰所有、品質如何。這對資料生産者和擁有者的權益造成了極大傷害,同樣也會對資料使用人的權益造成傷害。資料出版能從法律方面較好地解決這些問題。資料出版通過一系列保障措施、環節步驟和技術支援,較好地實作了對資料權益的保護,進而實作了對資料生産者和擁有者的信譽及合法權益的保障,提高了資料重用的價值[9]。

并不是所有的資料都是可以出版的。吳娜達等人[6]讨論了可以出版的資料應滿足的條件:資料權屬能夠确定、資料内容無害、資料标準規範、資料品質優良、資料具有可讀性。

•  資料權屬能夠确定:資料出版是為了宣示資料的著作權、所有權。是以首要前提是資料是合法生産的。關于資料權屬,一個直覺的觀點是:資料非天然,情理上屬于資料生産者[2-3]。如果資料是由單個主體獨自生産的,這個權屬比較容易界定;當資料有多個生産主體時,則需要各個主體簽訂協定,協商共同擁有資料權屬或者由某個主體擁有資料權屬。

•  資料内容無害:出版資料就是将資料向社會公開,任何人都可以通路這些資料。是以,可能危害社會和個人(例如涉及個人隐私)的資料不可以出版。比如病人的電子病曆資料涉及病人的個人隐私,是不能被出版的;再比如公民的身份證資訊不僅涉及個人隐私,而且如果樣本足夠大,會對社會和國家安全造成危害,也是不能被出版的,等等。

•  資料标準規範:資料要符合資料出版行業的标準規範要求。一個可出版的資料集應該滿足統一規模、格式、完整内容、版權辨別、通路唯一辨別的條件。出版的資料一般規模比較大、類型比較多,為了便于資料使用者使用出版的資料,還需要對出版的資料集進行描述和說明。

•  資料品質優良:資料必須品質優良,才能保證是可用的。隻有當資料的可信度、準确性、完整性、可了解性、可利用性、安全性等方面都達到一定的标準和要求,才能進行出版。

•  資料具有可讀性:資料出版是對資料所有權的宣示,必須要讓公衆看到出版的資料是什麼。是以,資料可讀也是資料出版的一個必要條件。不論何種格式的資料,都要有相應的通用型或專用型閱讀器使得資料可被人讀或機讀。

另外,隻有可讀的資料,才能被人或機查詢、閱讀、編譯、利用和二次開發,進而實作資料的價值。