在網易雲課堂買了卡夫卡的大資料課程,開始學習咯!
解決問題:海量資料的存儲——>分布式結構設計
叢集,有多台機器共同協作完成存儲
主從架構設計
主要存儲檔案的屬性資訊,即檔案的中繼資料:
檔案的名稱
檔案的位置
檔案的副本數
檔案的擁有者、組、權限
存儲快
各個塊在哪些datanode節點上
存儲具體的檔案

簡單解釋一下上圖:
1.不同的交換機在不同的機架上,存儲檔案在不同的機架上,當一個機架中的副本損壞,可以通過最近的一個機架去恢複資料。
2.讀檔案和寫檔案,如圖上圖所示:
讀檔案:用戶端先去找namenode拿到檔案的中繼資料,知道檔案存儲在哪一個datanode上(遵循就近的原則),然後去讀檔案。
寫檔案:用戶端先去namenode去請求,在哪台機器可以寫。
讀檔案:
client -> namenode
client ->datanode
寫檔案
client ->namenode