天天看點

Hadoop_HDFS(一):基本概念

文章目錄

  • ​​一、産生背景和定義​​
  • ​​1.1背景​​
  • ​​1.2 定義​​
  • ​​二、HDFS優缺點​​
  • ​​2.1 優點​​
  • ​​2.2 缺點​​
  • ​​三、HDFS組成​​
  • ​​四、檔案塊大小​​

一、産生背景和定義

Hadoop_HDFS(一):基本概念

1.1背景

随着資料量越來越大, 在一個作業系統存不下所有的資料, 那麼就配置設定到更多的作業系統管理的磁盤中,但是不友善管理和維護,迫切需要一種系統來管理多台機器上的檔案,這就是分布式檔案管理系統。HDFS 隻是分布式檔案管理系統中的一種。

1.2 定義

HDFS(Hadoop Distributed File System),它是一個檔案系統,用于存儲檔案,通過目錄樹來定位檔案(和Linux目錄一樣的);其次,它是分布式的,由很多伺服器聯合起來實作其功能,叢集中的伺服器有各自的角色。

HDFS 的使用場景:适合一次寫入,多次讀出的場景。 一個檔案經過建立、寫入和關閉之後就不需要改變。

二、HDFS優缺點

2.1 優點

Hadoop_HDFS(一):基本概念

2.2 缺點

Hadoop_HDFS(一):基本概念

三、HDFS組成

Hadoop_HDFS(一):基本概念
Hadoop_HDFS(一):基本概念

四、檔案塊大小

預設大小上限最大為128M:

Hadoop_HDFS(一):基本概念
Hadoop_HDFS(一):基本概念

為什麼塊的大小不能設定太小,也不能設定太大?

  • HDFS的塊設定太小,會增加尋址時間,程式一直在找塊的開始位置;
  • 如果塊設定的太大,從磁盤傳輸資料的時間會明顯大于定位這個塊開始位置所需的時間。導緻程式在處理這塊資料時,會非常慢。