易學筆記-第1章初識Hadoop（1）第1章初識Hadoop/1.1 資料換算機關第1章初識Hadoop/1.2 資料的存儲與分析第1章初識Hadoop/1.3 相對于其他系統的優勢第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

2023-07-22 06:49:38

第1章初識Hadoop/1.1 資料換算機關

資料換算機關

資料換算機關
1. Kilo K 1K = 1，024個位元組
2. Meg M 1M = 1024K
3. Giga G 1G = 1024M
4. Tera T 1T = 1024G
5. Peta P 1P = 1024T
6. Exa E 1E = 1024P
7. Zetta Z 1Z = 1024E
8. Yotta Y 1Y = 1024Z

第1章初識Hadoop/1.2 資料的存儲與分析

資料的存儲與分析

Hadoop
1. HDFS（Hadoop Distributed File System）：檔案系統，用于分布式存儲資料，特點
  1. 一個檔案儲存3個副本
2. MapReduce：分布式計算，擅長于整個資料集的動态查詢

第1章初識Hadoop/1.3 相對于其他系統的優勢

相對于其他系統的優勢

易學筆記-第1章初識Hadoop（1）第1章初識Hadoop/1.1 資料換算機關第1章初識Hadoop/1.2 資料的存儲與分析第1章初識Hadoop/1.3 相對于其他系統的優勢第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統

關系型資料庫管理系統

問題：為什麼用MapReduce，而不使用關系型資料庫進行批量分析呢？
1. 關系型資料庫
  1. 往往存在大量的資料更新，這就存在着一個尋址成本（尋址：将磁頭移動到特定硬碟位置讀寫操作的過程）
  2. 适合點查詢和更新
2. MapReduce
  1. 比較适合以批處理的方式分析整個資料集的問題，尤其是動态分析
  2. 适合一次寫入，多次讀取
兩者差異：
1. 易學筆記-第1章初識Hadoop（1）第1章初識Hadoop/1.1 資料換算機關第1章初識Hadoop/1.2 資料的存儲與分析第1章初識Hadoop/1.3 相對于其他系統的優勢第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算
2. 結構化程度對比
  1. 資料庫适合結構化資料
  2. MapReduce比較适合半結構化資料或者非結構化資料
3. MapReduce的運作時間随時叢集化而降低，但是資料庫的SQL查詢一般不具備這種特性

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算

高性能計算（high performance computing：HPC）

高性能計算采用作業分散到叢集的各個節點上，然後節點通路共有的檔案系統。如果資料量巨大，各個節點的帶寬瓶頸問題會非常突出
MapReduce
1. 盡量在節點上存儲本地資料，以降低資料的本地快速通路，同時采用網絡拓撲結構保留帶寬
2. MapReduce能夠實作失效檢查，這意味着各個任務之間是獨立的

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

志願計算

志願項目
1. SETI（對外星智能的探索（search for extraterrestrial intelligence））
2. SLPN:搜尋大素數(Search large prime number)
3. Folding
志願服務：志願服務将問題分解為多個塊，每一塊稱為一個工作單元，然後将往世界各地進行分析
與MapReduce的比較：
1. 志願計算适合成千上萬的CPU并行工作，花費的是CPU時間，而MapReduce花費的是網絡帶寬時間
2. 志願計算不要求高速網絡，而MapReduce 資料中心内有高速的網絡
3. 志願服務的接入的計算機是不可信的，而MapReduce 連接配接資料中心的計算機是安全可靠的

第1章初識Hadoop/1.1 資料換算機關

第1章初識Hadoop/1.2 資料的存儲與分析

第1章初識Hadoop/1.3 相對于其他系統的優勢

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

繼續閱讀

大資料—Hadoop 3.x—二.hadoop搭建

大資料hadoop面試經典題

浙大研究所學生hadoop工作分享

2019年國内Hadoop大資料平台專業的計算引擎：MapReduce+Tez+Spark

啃掉Hadoop系列筆記(02)-Hadoop運作環境搭建

啃掉Hadoop系列筆記(04)-Hadoop運作模式之僞分布式模式

<Hadoop實戰>學習 -- 基礎知識，初級入門

Hadoop_sbin概述

初識Hadoop，入門基礎篇簡介核心特點HDFS的master/slave構架HDFS的關鍵元素MapReduce檔案系統

Hadoop學習：Windows環境下配置Java環境Windows下安裝JAVA環境

Hadoop分布式檔案系統HDFS的工作原理詳述

Java HotSpot(TM) Client VM warning: ignoring option MaxPermSize=128m; support was removed in 8.0

Zookeeper原理與實操前言：1 zookeeper概述2 zookeeper安裝3 zookeeper選舉機制4 zookeeper實操

docker CMD ENTRYPOINT差別

MapReduce輸入輸出格式常用輸入格式常用輸出格式

第1章 初識Hadoop/1.1 資料換算機關

第1章 初識Hadoop/1.2 資料的存儲與分析

第1章 初識Hadoop/1.3 相對于其他系統的優勢

第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統

第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算

第1章 初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算

繼續閱讀

第1章初識Hadoop/1.1 資料換算機關

第1章初識Hadoop/1.2 資料的存儲與分析

第1章初識Hadoop/1.3 相對于其他系統的優勢

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.1 關系型資料庫管理系統

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.2 高性能計算

第1章初識Hadoop/1.3 相對于其他系統的優勢/1.3.3 志願計算