學習筆記(Hadoop分布式檔案系統)
- Hadoop是以流式資料通路模式存儲超大檔案。一次寫入,多次讀取。
- 每個檔案,目錄,資料塊的存儲資訊需要存放在記憶體中,大小根據經驗約為150位元組。是以對于硬體記憶體還是有極限的。
- HDFS中的塊跟磁盤塊概念相似,但是HDFS的塊大小預設64MB,為什麼如此之大,為了最小化尋址開銷。
- HDFS叢集有兩類節點,并以管理者-工作者模式運作,一個是namenode(管理者),和多個datanode(工作者)
- namenode是非常重要的角色,如果namenode的服務的機器毀壞檔案系統檔案将丢失,是以對namenode的容錯很重要。是以hadoop提供了兩種容錯解決方案,一個是備份那些組成檔案系統中繼資料持久狀态的檔案。一般做法是持久狀态寫入磁盤的同時寫入一個遠端的網絡檔案系統。另一個解決方案備份一個namenode,因為是儲存的是主節點的後狀态是以肯定可能造成資料部分丢失。
- 課外知識,(Thrift)一個軟體架構,用來進行可擴充且跨語言的服務的開發。提供各個語言間的程序間調用。是一種服務,提供各種語言的遠端過程調用接口。