天天看點

《深入了解大資料:大資料處理與程式設計實踐》一一第3章 大資料存儲——分布式檔案系統HDFS

大資料處理面臨的第一個問題是,如何有效存儲規模巨大的資料?對于大資料處理應用來說,依靠集中式的實體伺服器來儲存資料是不現實的,容量也好,資料傳輸速度也好,都會成為瓶頸。要實作大資料的存儲,需要使用幾十台、幾百台甚至更多的分布式伺服器節點。為了統一管理這些節點上存儲的資料,必須要使用一種特殊的檔案系統——分布式檔案系統。為了提供可擴充的大資料存儲能力,hadoop設計提供了一個分布式檔案系統hdfs(hadoop distributed file system)。

本章首先簡要介紹hdfs的基本特征、基本構架、工作過程,以及hdfs的可靠性設計和資料存儲及通路方法,在此基礎上進一步介紹hdfs的檔案操作指令和hdfs的程式設計接口和程式設計示例。

繼續閱讀