Hadoop基礎知識大資料時代資料的存儲與分析

2023-03-20 17:07:10

大資料時代

我們生活在大資料時代，資料量遠遠超過硬碟可存儲數量。個人産生的資料正在快速的增長，個人檔案有很大的技術發展和商業前景。

資料的存儲與分析

問題：

硬碟存儲容量多年來不斷提升的同時，通路速度（硬碟的讀取速度）沒有與時俱進。

解決思路：

多線程并行同時操作資料。

還有問題：

1、硬體故障

2、不同硬碟中的資料需要結合使用。

Hadoop這樣解決

1、HDFS分布式存儲/存儲檔案副本

2、MapReduce可靠高效的程式設計模型。

MapReduce批處理++

MapReduce是一個批量查詢處理器，能夠在合理的時間範圍内處理針對整個資料集的動态查詢。查詢比較慢，比較适合使用者不在現場的查詢。

MapReduce批量查詢并不是Hadoop唯一的功能，它還內建了很多Apache投資的開源軟體。

Hadoop的優勢

關系型資料庫管理系統

高效性：MapReduce的高效率存儲傳輸

互動性：愈來愈好的互動性，Hive。

伸縮性：功能可随資料量的大小伸縮。
網格計算

對比高性能計算：高性能計算比較适合計算機密集型作業。而Hadoop盡量實作資料本地處理，節省帶寬和傳輸浪費的時間；高性能計算賦予程式員很大的控制權，而基于Hadoop平台程式員僅對MapReduce的角度考慮，資料保持隐性；Hadoop可以更好的協調各個程序。

參考文獻：

[1]Tom White 著王海華東劉喻呂粵海譯.Hadoop權威指南,2017/7 第四版.

資料處理入門 hadoop 大資料雲計算

上一篇: <Hadoop實戰>學習 -- 基礎知識，初級入門

下一篇: Hadoop【基礎知識 04】【HDFS常用shell指令】

繼續閱讀