天天看點

HDFS-第1章概述

1.1 定義

    hdfs是一個檔案系統,用于存儲檔案,通過目錄樹來定位檔案;其次,hdfs是分布式的,由很多台伺服器聯合起來實作功能。

1.2 優缺點

優點:

    1)高容錯性:資料自動儲存多個副本;某一個副本丢失後,它可以自動恢複;

    2)适合處理大資料:GB、TB級别的資料;

    3)可建構在廉價機器上,通過多副本機制,提高可靠性。

缺點:

    1)不适合低延時資料通路,比如毫秒級别的存儲資料,是無法做到的;

    2)無法高效的對大量小檔案進行存儲:一般會采取合并成har檔案等方式;

    3)不支援并發寫入、檔案随機修改:多個線程同時對一個檔案寫入,這是不允許的。

1.3 HDFS的組成架構

HDFS-第1章概述

1)NameNode:管理hdfs的namespace;配置副本政策;管理block的映射資訊;處理用戶端的讀寫請求。

2)DataNode:存儲實際的資料塊;執行實際的資料塊讀寫操作。

3)Client:檔案切分;與namenode和datanode互動;擁有格式化namenode和一些hdfs增删改查的指令。

4)SecondaryNameNode:并非namenode的熱備,namenode挂掉的時候,并不會馬上替換;輔助namenode,定期合并Fsimage和Edits,并推送給namenode。

1.4 HDFS塊的大小

    hdfs的檔案在實體上是分塊存儲,塊的大小可以通過配置參數dfs.blocksize(hdfs-default.xml)來規定,預設為128M;

HDFS-第1章概述

繼續閱讀