第1章 初識Hadoop/1.1 資料換算機關
- 資料換算機關
- 資料換算機關
- Kilo K 1K = 1,024個位元組
- Meg M 1M = 1024K
- Giga G 1G = 1024M
- Tera T 1T = 1024G
- Peta P 1P = 1024T
- Exa E 1E = 1024P
- Zetta Z 1Z = 1024E
- Yotta Y 1Y = 1024Z
第1章 初識Hadoop/1.2 資料的存儲與分析
- 資料的存儲與分析
- Hadoop
- HDFS(Hadoop Distributed File System):檔案系統,用于分布式存儲資料,特點
- 一個檔案儲存3個副本
- MapReduce:分布式計算,擅長于整個資料集的動态查詢
- HDFS(Hadoop Distributed File System):檔案系統,用于分布式存儲資料,特點
第1章 初識Hadoop/1.3 相對于其他系統的優勢
- 相對于其他系統的優勢
第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統
- 關系型資料庫管理系統
- 問題:為什麼用MapReduce,而不使用關系型資料庫進行批量分析呢?
- 關系型資料庫
- 往往存在大量的資料更新,這就存在着一個尋址成本(尋址:将磁頭移動到特定硬碟位置讀寫操作的過程)
- 适合點查詢和更新
- MapReduce
- 比較适合以批處理的方式分析整個資料集的問題,尤其是動态分析
- 适合一次寫入,多次讀取
- 關系型資料庫
- 兩者差異:
- 結構化程度對比
- 資料庫适合結構化資料
- MapReduce比較适合半結構化資料或者非結構化資料
- MapReduce的運作時間随時叢集化而降低,但是資料庫的SQL查詢一般不具備這種特性
第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算
- 高性能計算(high performance computing:HPC)
- 高性能計算采用作業分散到叢集的各個節點上,然後節點通路共有的檔案系統。如果資料量巨大,各個節點的帶寬瓶頸問題會非常突出
- MapReduce
- 盡量在節點上存儲本地資料,以降低資料的本地快速通路,同時采用網絡拓撲結構保留帶寬
- MapReduce能夠實作失效檢查,這意味着各個任務之間是獨立的
第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算
- 志願計算
- 志願項目
- SETI(對外星智能的探索(search for extraterrestrial intelligence))
- SLPN:搜尋大素數(Search large prime number)
- Folding
- 志願服務:志願服務将問題分解為多個塊,每一塊稱為一個工作單元,然後将往世界各地進行分析
- 與MapReduce的比較:
- 志願計算适合成千上萬的CPU并行工作,花費的是CPU時間,而MapReduce花費的是網絡帶寬時間
- 志願計算不要求高速網絡,而MapReduce 資料中心内有高速的網絡
- 志願服務的接入的計算機是不可信的,而MapReduce 連接配接資料中心的計算機是安全可靠的