在昨天我總結了一些hadoop的常識性的知識,那麼接下來我就總結一下hadoop中HDFS的知識點。
1.HDFS的由來
HDFS全稱是Hadoop Distributed Filesystem,是借鑒于Google的GFS開發的分布式檔案系統。那麼什麼又是分布式檔案系統呢?管理網絡中跨多台計算機存儲的檔案系統稱為分布式檔案系統。這個檔案系統要求能夠容忍節點故障且不丢是任何資料。
2.HDFS的結構
HDFS是一種主從式結構。HDFS叢集中包含一個NameNode(在hadoop2.x結構中有兩個Namenode)主節點和多個DataNode從節點。
NameNode管理所有檔案系統的中繼資料。這些包括檔案系統的所有目錄和檔案同樣也記錄着各個資料塊鎖在的節點資訊。
DataNode存儲檔案。存儲的檔案被分為大小相等的block塊(預設為64MB).為保證資料安全有多個檔案副本,存放在不同的DataNode上。
3.HDFS的優點
良好的擴充性
高容錯性
資料自動儲存多個副本
副本丢失或自動恢複
适合PB級以上海量資料的存儲
适合大資料處理
可以有10K+節點
适合批量處理
移動計算而不是資料(配置設定任務時将任務配置設定到資料存儲的節點)
流式檔案通路
一次寫入多次讀取 高效的通路模式
保證資料的一緻性
可建構在廉價機器上
通過多副本提高可靠性
提供了容錯和恢複機制
4.HDFS的缺點
不能實作低延遲資料通路 資料量的高吞吐的代價就是資料處理的高延遲
小檔案存儲占用namenode 讀取時間慢,檔案系統所能存儲的檔案總數受制于namenode的記憶體容量。
不支援并發寫入,檔案隻能有一個寫者而且寫操作總是将資料添加在檔案的末尾不支援在檔案的任意位置進行修改。
今天就總結這麼多,明天會繼續将HDFS介紹下去