大資料技術産品
大資料技術産品
大資料技術分類:存儲,計算,資源管理
1.存儲:
(1)最基本的存儲技術是HDFS:
比如在企業應用中,會把通過各種管道得到的資料,比如關系資料庫的資料、日志資料、應用程式埋點采集的資料、爬蟲從外部擷取的資料,統統存儲到HDFS上,供後續的統一使用。
(2)HBase:
HBase作為NoSQL類非關系資料庫的代表性産品,從分類上可以劃分到存儲類别,它的底層存儲也用到了HDFS。
HBase的主要用途是在某些場景下,代替MySQL之類的關系資料庫的資料存儲通路,利用自己可伸縮的特性,存儲比MySQL多得多的資料量。
2.計算:
(1)大資料批處理計算
MapReduce、Spark、Hive、Spark SQL這些技術主要用來解決離線大資料的計算,也就是針對曆史資料進行計算分析,比如針對一天的曆史資料計算,一天的資料是一批資料,是以也叫批處理計算。
(2)大資料流處理計算
Storm、Spark Streaming、Flink大資料學習扣群522189307這類的大資料技術是針對實時的資料進行計算,比如攝像頭實時采集的資料、實時的訂單資料等,資料實時流動進來,是以也叫流處理大資料技術。
3.資源管理:
(1)Yarn:
管理這些伺服器叢集的計算資源,對計算請求進行資源配置設定。
4.注意:
(1)各種大資料計算引擎,不管是批處理還是流處理,都可以通過Yarn進行資源配置設定,運作在一個叢集中。是以上面所有這些技術在實際部署的時候,通常會部署在同一個叢集中,
(2)但是HBase特殊,作為一個NoSQL存儲系統,HBase的應用場景是滿足線上業務資料存儲通路需求,通常是OLTP(線上事務處理)系統的一部分,為了保證線上業務的高可用和資源獨占性,一般是獨立部署自己的叢集,和前面的Hadoop大資料叢集分離部署。