天天看點

易學筆記-第1章 初識Hadoop(1)第1章 初識Hadoop/1.1 資料換算機關第1章 初識Hadoop/1.2 資料的存儲與分析第1章 初識Hadoop/1.3 相對于其他系統的優勢第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

第1章 初識Hadoop/1.1 資料換算機關

  • 資料換算機關
  1. 資料換算機關
    1. Kilo    K  1K = 1,024個位元組
    2. Meg     M  1M = 1024K
    3. Giga    G  1G = 1024M
    4. Tera    T  1T = 1024G
    5. Peta    P  1P = 1024T
    6. Exa     E  1E = 1024P
    7. Zetta   Z  1Z = 1024E
    8. Yotta   Y  1Y = 1024Z

第1章 初識Hadoop/1.2 資料的存儲與分析

  • 資料的存儲與分析
  1. Hadoop
    1. HDFS(Hadoop Distributed File System):檔案系統,用于分布式存儲資料,特點
      1. 一個檔案儲存3個副本
    2. MapReduce:分布式計算,擅長于整個資料集的動态查詢

第1章 初識Hadoop/1.3 相對于其他系統的優勢

  • 相對于其他系統的優勢
  1. 易學筆記-第1章 初識Hadoop(1)第1章 初識Hadoop/1.1 資料換算機關第1章 初識Hadoop/1.2 資料的存儲與分析第1章 初識Hadoop/1.3 相對于其他系統的優勢第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統

  • 關系型資料庫管理系統
  1. 問題:為什麼用MapReduce,而不使用關系型資料庫進行批量分析呢?
    1. 關系型資料庫
      1. 往往存在大量的資料更新,這就存在着一個尋址成本(尋址:将磁頭移動到特定硬碟位置讀寫操作的過程)
      2. 适合點查詢和更新
    2. MapReduce
      1. 比較适合以批處理的方式分析整個資料集的問題,尤其是動态分析
      2. 适合一次寫入,多次讀取
  2. 兩者差異:
    1. 易學筆記-第1章 初識Hadoop(1)第1章 初識Hadoop/1.1 資料換算機關第1章 初識Hadoop/1.2 資料的存儲與分析第1章 初識Hadoop/1.3 相對于其他系統的優勢第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算
    2. 結構化程度對比
      1. 資料庫适合結構化資料
      2. MapReduce比較适合半結構化資料或者非結構化資料
    3. MapReduce的運作時間随時叢集化而降低,但是資料庫的SQL查詢一般不具備這種特性

第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算

  • 高性能計算(high performance computing:HPC)
  1. 高性能計算采用作業分散到叢集的各個節點上,然後節點通路共有的檔案系統。如果資料量巨大,各個節點的帶寬瓶頸問題會非常突出
  2. MapReduce
    1. 盡量在節點上存儲本地資料,以降低資料的本地快速通路,同時采用網絡拓撲結構保留帶寬
    2. MapReduce能夠實作失效檢查,這意味着各個任務之間是獨立的

第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

  • 志願計算
  1. 志願項目
    1. SETI(對外星智能的探索(search for extraterrestrial intelligence))
    2. SLPN:搜尋大素數(Search large prime number)
    3. Folding
  2. 志願服務:志願服務将問題分解為多個塊,每一塊稱為一個工作單元,然後将往世界各地進行分析
  3. 與MapReduce的比較:
    1. 志願計算适合成千上萬的CPU并行工作,花費的是CPU時間,而MapReduce花費的是網絡帶寬時間
    2. 志願計算不要求高速網絡,而MapReduce 資料中心内有高速的網絡
    3. 志願服務的接入的計算機是不可信的,而MapReduce 連接配接資料中心的計算機是安全可靠的

繼續閱讀