大資料技術應用場景

2023-05-20 02:11:52

大資料技術産品

大資料技術應用場景

大資料技術産品

大資料技術分類：存儲，計算，資源管理

1.存儲：

(1)最基本的存儲技術是HDFS:

比如在企業應用中，會把通過各種管道得到的資料，比如關系資料庫的資料、日志資料、應用程式埋點采集的資料、爬蟲從外部擷取的資料，統統存儲到HDFS上，供後續的統一使用。

(2)HBase:

HBase作為NoSQL類非關系資料庫的代表性産品，從分類上可以劃分到存儲類别，它的底層存儲也用到了HDFS。

HBase的主要用途是在某些場景下，代替MySQL之類的關系資料庫的資料存儲通路，利用自己可伸縮的特性，存儲比MySQL多得多的資料量。

2.計算：

(1)大資料批處理計算

MapReduce、Spark、Hive、Spark SQL這些技術主要用來解決離線大資料的計算，也就是針對曆史資料進行計算分析，比如針對一天的曆史資料計算，一天的資料是一批資料，是以也叫批處理計算。

(2)大資料流處理計算

Storm、Spark Streaming、Flink大資料學習扣群522189307這類的大資料技術是針對實時的資料進行計算，比如攝像頭實時采集的資料、實時的訂單資料等，資料實時流動進來，是以也叫流處理大資料技術。

3.資源管理：

(1)Yarn:

管理這些伺服器叢集的計算資源，對計算請求進行資源配置設定。

4.注意：

(1)各種大資料計算引擎，不管是批處理還是流處理，都可以通過Yarn進行資源配置設定，運作在一個叢集中。是以上面所有這些技術在實際部署的時候，通常會部署在同一個叢集中，

(2)但是HBase特殊，作為一個NoSQL存儲系統，HBase的應用場景是滿足線上業務資料存儲通路需求，通常是OLTP（線上事務處理）系統的一部分，為了保證線上業務的高可用和資源獨占性，一般是獨立部署自己的叢集，和前面的Hadoop大資料叢集分離部署。