天天看點

帶你讀《資料自治》前言第一章緒論1.3大資料(一)

為什麼叫大資料而不叫大資訊?樸素地做一些解釋,“CPI為6.9”是一條資料,如果你讀懂了,你就可以獲得資訊“經濟處在高通脹狀态”,如果沒有讀懂,就沒有獲得資訊。也就是說,對于讀懂的人來說,資料就是資訊,對于沒有讀懂的人來說,它隻是資料,不是資訊。又如,随意鍵入的一串字元“8上的飛機 spew2”就沒有資訊,但它是資料。另外,資訊的大小難以衡量,但資料的大小可以衡量。現在講大資料而不是大資訊,是指資料規模确實很大,但并不意味着資料裡面的資訊很多(或很大),有些非常大的資料集可能沒有什麼有價值的資訊,即大資料裡可能沒有大資訊。本節關于大資料的讨論主要來自文獻[10]。

1.3.1         資訊化與大資料

資訊化的本質是生産資料的過程,資料被大量生産處理,進而形成了資料資源。資料資源的開發利用逐漸成為人類的新需求,從早期的資料倉庫和資料挖掘技術的提出,到決策支援系統和商業智能的應用,都是在進行資料資源的開發利用工作。直到大資料的出現,資料資源的開發利用工作從量變發展到了質變:資料開發成為一個新的領域,資訊技術發展出新的技術分支——大資料技術,并迅速壯大,對資料界的探索發展為一個新的科學——資料科學。圖 1-1展示了資訊化和大資料的差異[11]。

我們需要把握住大資料和資訊化二者之間的關系:不混淆、不沖突。

•  不混淆是指資訊化和大資料是不同的,不能混為一談,資訊化是生産資料的,大資料是開發資料的,更重要的是:資訊化是技術進步促進資料增長,大資料是資料增長促進技術進步。不能用資訊化的做法和思路來發展大資料,也不能用發展大資料的方式來建設資訊化。

•  不沖突是指大資料不取代資訊化,資訊化不包含大資料,資訊化仍将快速發展,但大資料已經從資訊化工作中獨立出來了,如果說資訊化對應的技術叫 IT

(InformationTechnology),那麼大資料對應的技術可以叫 DT(DataTechnology)。

帶你讀《資料自治》前言第一章緒論1.3大資料(一)

圖 1-1大資料與資訊化的差異

1.3.2         大資料定義

大資料已經是一個普遍使用的名詞了。但是,技術領域和非技術領域對大資料有不同的了解,這兩個領域談論的對象其實是不同的,技術領域說的大資料是指大資料技術,而應用領域說的大資料是指大資料應用。事實上,經過長期的資訊化建設,幾乎所有的行業和機關都積累了龐大的資料資源,是以,資料和基于資料的應用幾乎涉及所有的人。可以将大資料人群分成 3類:有大資料的人群、做大資料的人群和用大資料的人群,很多時候大家在談論大資料時,實際上是在談論不同的東西,即有大資料的人談論資料資源及其規模,做大資料的人談論大資料帶來的技術挑戰,用大資料的人則談論大資料帶來的決策變革。3類人群談論的是不同的大資料概念。

那麼,大資料是資料、技術、還是應用呢?這就需要一個清晰的大資料定義。先來看一下關于大資料的一些定義。

1997年 Michael  Cox和 DavidEllsworth[12]最早提出“大資料”術語時指出:當資料量大到記憶體、本地磁盤,甚至遠端磁盤都不能處理時,這類資料可視化的問題稱為大資料。

維基百科的定義:大資料是一個複雜而龐大的資料集,以至于很難用現有的資料庫管理系統和其他資料處理技術進行采集、存儲、查找、共享、傳送、分析和可視化。

4V定義:大資料是具有 4V特征的資料集。4V特征是指:價值(Value),資料價值巨大但價值密度低;時效(Velocity),資料處理分析要在希望的時間内完成;多樣(Variety),資料來源和形式都是多樣的;大量(Volume),就目前技術而言,資料量要達到PB級别以上。

香山科學會議定義:2013年 5月召開的第 462次香山科學會議給出了技術型和非技術型兩個定義。

•  技術型定義:大資料是來源多樣、類型多樣、大而複雜、具有潛在價值,但難以在期望的時間内處理和分析的資料集。

•  非技術型定義:大資料是數字化生存時代的新型戰略資源,是驅動創新的重要因素,正在改變人類的生産和生活方式。

上述這些定義的核心問題是:一個資料集有沒有價值(值不值得去挖掘)?能不能挖掘出價值?能不能在希望的時間内挖掘出價值?

事實上,資料的價值和挖掘這些價值的時效是大資料的核心内涵。

•  關于價值:首先,如果一個資料集沒有價值,就不需要關注;其次,如果一個資料集的價值密度高,即大部分資料是有價值的,直接讀取資料集就能獲得價值,沒有技術難度。是以,真正的大資料是低價值密度的資料集。大資料是高難的技術挑戰。

•  關于時效:首先,所有的大資料處理和分析都應該在希望的時間做完,如果過了希望的時間,就沒有意義了,這是一個技術難題;其次,在競争中,要比競争對手更快地完成大資料處理和分析。

這樣來看,大資料的核心隻有兩個 V:價值(Value)和時效(Velocity)。給定一個大資料,如果沒有技術能夠在決策希望的時間内挖掘其價值,那麼大資料是一個技術挑戰,否則這就是一個大資料應用。需要注意的是,一個大資料應用可能會轉化成大資料的技術挑戰。例如,無人駕駛汽車在道路上行駛時,會擷取汽車自身的工作資料(行駛速度、油量、引擎工作狀态等)、實時路況資料(前車車速、車距、行人等)、道路管理資料(紅綠燈、限速等),并及時分析這些資料,及時做出駕駛判斷。當車速小于 50km/h時,汽車發現 50m外車道上有行人後,花費 2s的時間得出需要刹車的結論是可以接受的;但當車速提高到 100km/h時,資料分析

的時間就需要小于1s。這時,大資料應用變成了大資料技術挑戰。

這些定義最大的問題是“目前技術難以(所不能)處理的”。那麼當技術改進了,能夠處理了,還是不是大資料?于是,一個典型的沖突現象出現了:技術領域說大資料是目前技術所不能解決的資料集,而應用領域卻給出了大量關于大資料成功應用的案例。這是對大資料的謬誤。

大資料謬誤:大資料是目前技術難以(所不能)處理的資料集,那麼,所有能夠被處理的資料集都不是大資料,是以,沒有成功的大資料應用。也就是說,“大資料都不能被處理,能夠處理的都不是大資料”,或者“大資料都不能用,能用的都不是大資料”[10]。

從上述定義可以看出:首先,所有的定義都談到了資料,一個龐大的資料集;其次,技術方面強調了大資料是目前技術所不能處理的,這裡的“不能”是指“不能在決策希望的時間内”做到;最後,大資料是用來解決決策應用問題的,是一個基于資料集和資料技術的決策應用,改變着生産和生活中的決策方式。是以,資料、技術和應用是大資料的 3個要素,資料隐含價值,技術發現價值,應用實作價值。

那麼,應該如何定義大資料呢?

首先,不能把一個技術挑戰定義為大資料,否則,一旦技術挑戰解決了,就不是大資料了,另外,挑戰本身不是一個事物,不能被命名;其次,也不能把一個資料集定義為大資料,資料集本身隻是隐含價值,不能直接發揮作用;最後,更不能将一個資料應用定義為大資料,那樣會導緻所有基于資料的系統都被認為是大資料。我們可以對大資料做如下定義。

大資料是為決策問題提供服務的大資料集、大資料技術和大資料應用的總稱。其中,大資料集是指一個決策問題用到的所有可能的資料,通常資料量巨大、來源多樣、類型多樣;大資料技術是指大資料資源擷取、存儲管理、挖掘分析、可視展現等技術;大資料應用是指使用大資料集和大資料技術來支援決策活動,是新的決策方法[10]。

一個大資料是否能為一個決策問題提供服務的關鍵是:能否在決策希望的時間内有效完成所有的任務。但是資料增長的速度遠快于技術進步的速度,是以,出現了大資料問題。

大資料問題是指不能用目前技術在決策希望的時間内處理分析的資料資源開發利用問題。大資料問題的關鍵技術挑戰在于:找到隐含在低價值密度資料資源中的

價值;在決策希望的時間内完成所有的任務[10]。

繼續閱讀