天天看點

讓CarbonData使用更簡單

<b>carbondata 是什麼</b>

引用官方的說法:

apache carbondata是一種新的高性能資料存儲格式,針對目前大資料領域分析場景需求各異而導緻的存儲備援問題,carbondata提供了一種新的融合資料存儲方案,以一份資料同時支援“任意次元組合的過濾查詢、快速掃描、詳單查詢等”多種應用場景,并通過多級索引、字典編碼、列存等特性提升了io掃描和計算性能,實作百億資料級秒級響應。

<b>carbondata的使用</b>

我之前寫過一篇使用的文章。carbondata叢集模式體驗。到0.3.0版本,已經把kettle去掉了,并且我送出的pr已經能夠讓其在spark streaming中運作。之後将其內建到streamingpro中,可以簡單通過配置即可完成資料的流式寫入和作為sql服務被讀取。

<b>準備工作</b>

carbondata 使用了hive的metastore。

mysql資料庫

hive-site.xml 檔案

下載下傳streamingpro with carbondata

<b>mysql</b>

建立一個庫:

<b>hdfs-site.xml</b>

建立檔案 /tmp/hdfs-site.xml,然後寫入如下内容:

<b>啟動spark streaming寫入資料</b>

建立一個檔案,/tmp/streaming-test-carbondata.json,内容如下:

運作即可(spark 1.6 都可以)

如果/tmp/carbondata/store/default/ 目錄生成了檔案就代表資料已經寫入。

<b>啟動sql查詢服務</b>

建立一個/tmp/empty.json檔案,内容為:

啟動指令:

查詢方式:

如果放在postman之類的東西裡,是這樣子的:

讓CarbonData使用更簡單

<b>常見問題</b>

如果出現類似

則是因為在你的環境裡找到了hadoop相關的配置檔案,比如hdfs-site.xml之類的。去掉或者自己寫一個,比如建立一個 hdfs-site.xml,然後寫入如下内容:

這樣就會讀本地檔案了。

繼續閱讀