天天看點

帶你讀《資料資産》第一章緒論1.1界定資料(一)

1.1.3         資料與物質

資料和物質都是實體存在的,但資料的存在和物質的存在是不同的,主要表現在可辨別性、可共享性和生命周期性 3個方面[6]。

(1)可辨別性

自然界的物質都是可辨別的,所謂“相同的兩個東西”指的是同質化的兩個東西,例如,面對兩杯水,可以說“一樣的兩杯水”;而對于資料,一個資料的存在和兩個相同資料的存在是一樣的,“兩個相同的資料”的說法意義不大,“兩個相同的資料”表示自然界的一個事物,即一個資料,一般采用“一個資料的兩個副本”的說法。對于資料,通常讨論資料的相似性,而不讨論資料的相同性,相似性由相似性函數定義,可以說“兩個相似的資料”。

資料的這種特性說明資料是面向值的,即如果有兩個資料對象有相同的值,則認為它們是一個對象的兩個副本。

(2)可共享性

共享就是指共同分享,在實體世界中主要指某樣東西被多個人分。例如“共享午餐”是指共享者一起吃午餐,其實每個共享者吃的東西并不一樣,同樣的東西是不可能被吃進兩個人的肚子裡的。 

而資料共享的概念有本質上的不同,資料共享是指同樣的資料被多個共享者使用,并且每個共享者擁有完全一樣的資料量、資料形式和資料内容,即擁有資料的副本。相對于資料生産來說,将一個資料複制随意多個副本是輕而易舉的事情,是以,資料是可共享的,并且資料擁有者通常願意将其擁有的資料拿出來共享。

資料的可共享性意味着資料的邊際成本很低,能夠創造更多的價值。但是,資料的可共享性也可能帶來負面效果,例如,因為資料副本的制作相對于資料生産來說非常容易,是以對資料所有權的保護就非常困難,資料的稀缺性也極易受到挑戰。

(3)生命周期性

自然界中的物質會老化,有生命周期;而資料不會老化,沒有生命周期。資料從其被生産出來到被删除這個過程看起來像是有生命周期的,但其實不是。根據資料的時間屬性,一個資料本身是不會随時間的推移而變老、變舊的,例如,将一張照片資料存放多年以後,隻要載體還存在或者不斷替換新載體,這個資料對象本身是不會發生變化的,資料不會減少,品質也不會下降。

資料被生産、存儲、修改、删除的過程通常是一個應用系統執行的結果,也可能是現實中對應該資料的事物的生命周期發生變化的資料反應,而不是計算機系統中資料的生命周期。這一點對于資料科學研究者而言非常重要。

1.1.4         大資料

關于大資料,不同的人群有不同的了解。目前,大資料人群可以被分為 3類:有大資料的人群、做大資料的人群和用大資料的人群。很多時候大家在談論大資料時,實際上是在談論不同的東西,即有大資料的人談論資料資源及其規模,做大資料的人談論大資料帶來的技術挑戰,用大資料的人則談論大資料帶來的決策   變革。

那麼,大資料是資料、技術還是應用呢?事實上,資料的價值和挖掘這些價值的時效是大資料的核心内涵。

·  關于價值:首先,如果一個資料集沒有價值,就不需要被關注;其次,如果一個資料集的價值密度高,即大部分資料是有價值的,那麼直接讀取資料集就能獲得價值,沒有技術難度。是以,真正的大資料是價值密度低的資料集,從資料集中擷取價值像大海撈針一樣。大資料是高難的技術挑戰。

·  關于時效:首先,所有的大資料處理和分析都應該在希望的時間内完成,如果過了希望的時間,就沒有意義了,這是一個技術難題;其次,在競争中,要比競争對手更快地完成大資料處理和分析。

這樣來看,給定一個大資料,如果沒有技術能夠在希望的時間内挖掘其價值,那麼大資料是一個技術挑戰,否則就是一個大資料應用。需要注意的是,一個大資料應用可能會轉化成大資料的技術挑戰。例如,無人駕駛汽車在道路上行駛時,會擷取汽車自身的工作資料(行駛速度、油量、引擎工作狀态等)、實時路況資料(前車車速、車距、行人等)、道路管理資料(紅綠燈、限速等),并及時分析這些資料、及時做出駕駛判斷。當汽車速度小于 50km/h時,發現 50m外車道上有行人後,經過 2s的資料分析得出需要刹車的結論是可以接受的;但當車速提高到 100km/h時,資料分析的時間就需要小于 1s。這時,大資料應用變成了大資料技術挑戰。

事實上,資料、技術和應用是大資料的 3個要素,資料隐含價值,技術發現價值,應用實作價值。大資料是為決策問題提供服務的大資料集、大資料技術和大資料應用的總稱。其中,大資料集是指一個決策問題用到的所有可能的資料,通常資料量巨大、來源多樣、類型多樣;大資料技術是指大資料資源擷取、存儲管理、挖掘分析、可視展現等技術;大資料應用是指用大資料集和大資料技術來支援決策活動,是新的決策方法[7]。

一個大資料能否為一個決策問題提供服務的關鍵是:能否在決策希望的時間内有效完成所有的任務。但是資料增長的速度遠遠大于技術進步的速度,是以,出現了大資料問題。大資料問題是指不能用目前技術在決策希望的時間内處理分析資料的資料資源開發利用問題。大資料問題的關鍵技術挑戰在于:找到隐含在低價值密度資料

繼續閱讀