本文分享自華為雲社群《【雲小課】EI第40課 MRS基礎原理之CarbonData入門》，作者：Hello EI。

CarbonData是一種新型的Apache Hadoop本地檔案格式，使用先進的列式存儲、索引、壓縮和編碼技術，以提高計算效率，有助于加速超過PB數量級的資料查詢，可用于更快的互動查詢。同時，CarbonData也是一種将資料源與Spark內建的高性能分析引擎。

使用CarbonData的目的是對大資料即席查詢提供超快速響應。從根本上說，CarbonData是一個OLAP引擎，采用類似于RDBMS中的表來存儲資料。使用者可将大量（10TB以上）的資料導入以CarbonData格式建立的表中，CarbonData将以壓縮的多元索引列格式自動組織和存儲資料。資料被加載到CarbonData後，就可以執行即席查詢，CarbonData将對資料查詢提供秒級響應。

CarbonData将資料源內建到Spark生态系統，使用者可使用Spark SQL執行資料查詢和分析。也可以使用Spark提供的第三方工具JDBCServer連接配接到Spark SQL。

本文以從CSV檔案加載資料到CarbonData Table為例，介紹建立CarbonData table、加載資料，以及查詢資料的快速入門流程。

使用CarbonData需要安裝Spark2x元件，并安裝Spark2x的用戶端。

MRS叢集的建立可參考建立叢集，例如購買一個MRS 3.1.0版本叢集。
安裝Spark2x用戶端，可參考安裝用戶端，例如用戶端安裝目錄為：“/opt/client”。
對于安全模式的叢集（開啟了Kerberos認證），在使用CarbonData時，需要建立一個具有通路CarbonData權限的使用者，可參考建立使用者，使用者組選擇hadoop和hive，主組選擇hadoop，例如建立人機使用者“testuser”。

準備CSV檔案

準備加載到CarbonData Table的CSV檔案。

在本地準備CSV檔案，檔案名為：test.csv。13418592122,1001,MAC位址,2017-10-23 15:32:30,2017-10-24 15:32:30,62.50,74.56 13418592123,1002,MAC位址,2017-10-23 16:32:30,2017-10-24 16:32:30,17.80,76.28 13418592124,1003,MAC位址,2017-10-23 17:32:30,2017-10-24 17:32:30,20.40,92.94 13418592125,1004,MAC位址,2017-10-23 18:32:30,2017-10-24 18:32:30,73.84,8.58 13418592126,1005,MAC位址,2017-10-23 19:32:30,2017-10-24 19:32:30,80.50,88.02 13418592127,1006,MAC位址,2017-10-23 20:32:30,2017-10-24 20:32:30,65.77,71.24 13418592128,1007,MAC位址,2017-10-23 21:32:30,2017-10-24 21:32:30,75.21,76.04 13418592129,1008,MAC位址,2017-10-23 22:32:30,2017-10-24 22:32:30,63.30,94.40 13418592130,1009,MAC位址,2017-10-23 23:32:30,2017-10-24 23:32:30,95.51,50.17 13418592131,1010,MAC位址,2017-10-24 00:32:30,2017-10-25 00:32:30,39.62,99.13
将CSV檔案導入用戶端所在節點，例如“/opt”目錄下。
進入用戶端目錄，上傳CSV檔案到HDFS的“/data”目錄。cd /opt/client source ./bigdata_env source ./Spark2x/component_env kinit sparkuser hdfs dfs -put /opt/test.csv /data/

連接配接到CarbonData

在對CarbonData進行任何一種操作之前，首先需要連接配接到CarbonData。

使用Spark SQL或Spark shell連接配接到Spark并執行Spark SQL指令。
開啟JDBCServer并使用JDBC用戶端（例如，Spark Beeline）連接配接。cd /opt/client/Spark2x/spark/bin ./spark-beeline

建立CarbonData Table

在Spark Beeline被連接配接到JDBCServer之後，需要建立一個CarbonData table用于加載資料和執行查詢操作。

例如下面是建立一個簡單的表的指令：

create table  x1 (imei string, deviceInformationId int, mac string, productdate timestamp, updatetime timestamp, gamePointId double, contractNumber double) STORED AS carbondata TBLPROPERTIES ('SORT_COLUMNS'='imei,mac');

指令執行結果如下：

+---------+
| Result  |
+---------+
+---------+
No rows selected (1.093 seconds)

加載資料到CarbonData Table

建立CarbonData table之後，可以從CSV檔案加載資料到所建立的表中。

表的列名需要與CSV檔案的列名比對。

LOAD DATA inpath 'hdfs://hacluster/data/test.csv' into table x1 options('DELIMITER'=',', 'QUOTECHAR'='"','FILEHEADER'='imei, deviceinformationid,mac, productdate,updatetime, gamepointid,contractnumber');

其中，“test.csv”為準備的CSV檔案，“x1”為示例的表名。

指令執行結果如下：

+------------+
|Segment ID  |
+------------+
|0           |
+------------+
No rows selected (3.039 seconds)

在CarbonData中查詢資料

建立CarbonData table并加載資料之後，可以執行所需的資料查詢操作。以下為一些查詢操作舉例。

擷取記錄數

為了擷取在CarbonData table中的記錄數，可以運作以下指令。

select count(*) from x1;

使用Groupby查詢

為了擷取不重複的deviceinformationid記錄數，可以運作以下指令。

select deviceinformationid,count (distinct deviceinformationid) from x1 group by deviceinformationid;

用Filter查詢

為了擷取特定deviceinformationid的記錄，可以運作以下指令。

select * from x1 where deviceinformationid='1010';

在執行資料查詢操作後，如果查詢結果中某一列的結果含有中文字等非英文字元，會導緻查詢結果中的列不能對齊，這是由于不同語言的字元在顯示時所占的字寬不盡相同。

在Spark-shell上使用CarbonData

建立CarbonData table并加載資料之後，可以執行所需的查詢操作，例如filters，groupby等。

使用者若需要在Spark-shell上使用CarbonData，需通過如下方式建立CarbonData Table，加載資料到CarbonData Table和在CarbonData中查詢資料的操作。

spark.sql("CREATE TABLE x2(imei string, deviceInformationId int, mac string, productdate timestamp, updatetime timestamp, gamePointId double, contractNumber double) STORED AS carbondata")
spark.sql("LOAD DATA inpath 'hdfs://hacluster/data/x1_without_header.csv' into table x2 options('DELIMITER'=',', 'QUOTECHAR'='\"','FILEHEADER'='imei, deviceinformationid,mac, productdate,updatetime, gamepointid,contractnumber')")
spark.sql("SELECT * FROM x2").show()

關注我，第一時間了解華為雲新鮮技術~

雲小課｜MRS基礎原理之CarbonData入門

準備CSV檔案

連接配接到CarbonData

建立CarbonData Table

加載資料到CarbonData Table

在CarbonData中查詢資料

擷取記錄數

使用Groupby查詢

用Filter查詢

在Spark-shell上使用CarbonData

繼續閱讀

2022.4.27往年今日。我可以很定的告訴你，9.9%的男人喜倒黴樣的女人。在看完這個視訊很多人都會有關心我的回答，我

記憶體管了解析(1) 記憶體映射與堆記憶體管理一. 預備知識二. Linux程序級記憶體管理

源自華為的大資料引擎：Apache CarbonData

CO2的捕集與封存技術是如何實作的？CO2的捕集與封存(CarbonCaptureandStorage,CCS)是目前被

輕便職場，随身而動小體積大精彩，工作輕松拿滿分面對工作任務遊刃有餘，X1Carbon讓兔兔“夢想成真”小紅書創作者：T-

ThinkPad商務旗艦全新X1系列正式亮相，X1Carbon在會議中可以通過LenovoView3.0，實作背景虛化、

邏輯控制基礎原理。

五款兼具便攜和全能體驗的推薦：1.MacBookAirM1：這是一款非常輕薄的筆記本電腦，重量隻有1.29kg，厚度隻有

Thinkpad如果說成本效益，thinkpad裡面的一款全能本機，也就是ThinkpadNeo配置為2.2K的螢幕，跟t

萬元選擇聯想ThinkPad X1 Carbon、X1 Nano還是華為matebook X Pro？

盧浮宮博物館：從中世紀堡壘到世界上最大的藝術博物館及其建築轉型盧浮宮最初建于12世紀，是為了保護巴黎的城市邊界而建造的一

碾壓每次挑戰。經典小黑二零二三全面更新，下面的ThinkPadX1carbon2023也全面更新。·首先就是性能的更新酷

C語言三種預處理功能詳解 1. 宏定義 2.檔案包含 3.條件編譯

數字影視技術基礎回顧

New Lenovo Thinkpad X1 carbon on the way

AlN和AlN-Mo陶瓷基複合材料的斷裂韌性降低研究由AlN基體和耐火金屬添加劑組成的陶瓷基體複合材料，如Mo，已被