天天看點

《大資料導論》——1.3節不同資料類型

本節書摘來自華章社群《大資料導論》一書中的第1章,第1.3節不同資料類型,作者瓦吉德·哈塔克(wajid khattak),保羅·布勒(paul buhler),更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

1.3 不同資料類型

雖然資料最終會被機器處理并生成分析結果,但經由大資料解決方案處理的資料來源,可能是人也可能是機器。人為産生的資料是人與系統互動時的結果,例如線上服務或者數字裝置,圖1.16顯示了人為産生的資料的示例。

《大資料導論》——1.3節不同資料類型

人為産生的資料,例如社交媒體、部落格博文、電子郵件、照片分享、短信等

機器生成的資料是指由軟體程式和硬體裝置對現實世界做出回應所産生的資料。例如,一個記錄着安全服務的某次授權的日志檔案,或者一個銷售點管理系統生成的消費者購買的商品清單。從硬體的角度來看,大量的手機傳感器生成的位置和信号塔信号強度等資訊就是由機器生成資料的例子。圖1.17清晰地表述了由機器生成的各種資料。

如上所述,人為産生的資料和機器生成的資料都是多源的,并且會以多種不同的格式呈現。這一節中我們将仔細審查大資料解決方案處理後的多種不同資料類型。主要的類型有以下三種:

《大資料導論》——1.3節不同資料類型

1.3.2 非結構化資料

非結構化資料是指不遵循統一的資料模式或者模型的資料。據估計,企業獲得的資料有80%左右是非結構化資料,并且其增長速率要高于結構化資料。圖1.19顯示了幾種常見的非結構化資料。這種類型的資料可以是文本的,也可以是二進制的,常常通過自包含的、非關系型檔案傳輸。一個文本文檔可能包含許多博文和推文。而二進制檔案多是包含着圖像、音頻、視訊的媒體檔案。從技術上講,文本檔案和二進制檔案都有根據檔案格式本身定義的結構,但是這個層面的結構不在讨論之中,并且非結構化的概念與包含在檔案中的資料相關,而與檔案本身無關。

存儲和處理非結構化的資料通常需要用到專用邏輯。例如,要放映一部視訊,正确的編碼、解碼是至關重要的。非結構化資料不能被直接處理或者用sql語句查詢。如果它們需要存儲在關系型資料庫中,它們會以二進制大型對象(blob)形式存儲在表中。當然,nosql資料庫作為一個非關系型資料庫,能夠用來同時存儲結構化和非結構化資料。

《大資料導論》——1.3節不同資料類型

1.3.3 半結構化資料

半結構化資料有一定的結構與一緻性限制,但本質上不具有關系性。半結構化資料是層次性的或基于圖形的。這類資料常常存儲在文本檔案中。圖1.20展示了xml檔案和json檔案這兩類常見的半結構化資料。由于文本化的本質以及某些層面上的結構化,半結構化資料比非結構化資料更好處理。

《大資料導論》——1.3節不同資料類型

半結構化資料的一些常見來源包括電子轉換資料(edi)檔案、擴充表、rss源以及傳感器資料。半結構化資料也常需要特殊的預處理和存儲技術,尤其是重點部分不是基于文本的時候。半結構化資料預處理的一個例子就是對xml檔案的驗證,以確定它符合其模式定義。

1.3.4 中繼資料

中繼資料提供了一個資料集的特征和結構資訊。這種資料主要由機器生成,并且能夠添加到資料集中。搜尋中繼資料對于大資料存儲、處理和分析是至關重要的一步,因為中繼資料提供了資料系譜資訊,以及資料處理的起源。中繼資料的例子包括:

xml檔案中提供作者和建立日期資訊的标簽

數位照片中提供檔案大小和分辨率的屬性檔案

《大資料導論》——1.3節不同資料類型