天天看點

Hadoop基礎知識大資料時代資料的存儲與分析

大資料時代

我們生活在大資料時代,資料量遠遠超過硬碟可存儲數量。個人産生的資料正在快速的增長,個人檔案有很大的技術發展和商業前景。

資料的存儲與分析

問題:

硬碟存儲容量多年來不斷提升的同時,通路速度(硬碟的讀取速度)沒有與時俱進。

解決思路:

多線程并行同時操作資料。

還有問題:

1、硬體故障

2、不同硬碟中的資料需要結合使用。

Hadoop這樣解決

1、HDFS分布式存儲/存儲檔案副本

2、MapReduce可靠高效的程式設計模型。

MapReduce批處理++

MapReduce是一個批量查詢處理器,能夠在合理的時間範圍内處理針對整個資料集的動态查詢。查詢比較慢,比較适合使用者不在現場的查詢。

MapReduce批量查詢并不是Hadoop唯一的功能,它還內建了很多Apache投資的開源軟體。

Hadoop的優勢

  1. 關系型資料庫管理系統

    高效性:MapReduce的高效率存儲傳輸

    互動性:愈來愈好的互動性,Hive。

    伸縮性:功能可随資料量的大小伸縮。

  2. 網格計算

    對比高性能計算:高性能計算比較适合計算機密集型作業。而Hadoop盡量實作資料本地處理,節省帶寬和傳輸浪費的時間;高性能計算賦予程式員很大的控制權,而基于Hadoop平台程式員僅對MapReduce的角度考慮,資料保持隐性;Hadoop可以更好的協調各個程序。

參考文獻:

[1]Tom White 著 王海 華東 劉喻 呂粵海 譯.Hadoop權威指南,2017/7 第四版.

繼續閱讀