<b>carbondata 是什麼</b>
引用官方的說法:
apache carbondata是一種新的高性能資料存儲格式,針對目前大資料領域分析場景需求各異而導緻的存儲備援問題,carbondata提供了一種新的融合資料存儲方案,以一份資料同時支援“任意次元組合的過濾查詢、快速掃描、詳單查詢等”多種應用場景,并通過多級索引、字典編碼、列存等特性提升了io掃描和計算性能,實作百億資料級秒級響應。
<b>carbondata的使用</b>
我之前寫過一篇使用的文章。carbondata叢集模式體驗。到0.3.0版本,已經把kettle去掉了,并且我送出的pr已經能夠讓其在spark streaming中運作。之後将其內建到streamingpro中,可以簡單通過配置即可完成資料的流式寫入和作為sql服務被讀取。
<b>準備工作</b>
carbondata 使用了hive的metastore。
mysql資料庫
hive-site.xml 檔案
下載下傳streamingpro with carbondata
<b>mysql</b>
建立一個庫:
<b>hdfs-site.xml</b>
建立檔案 /tmp/hdfs-site.xml,然後寫入如下内容:
<b>啟動spark streaming寫入資料</b>
建立一個檔案,/tmp/streaming-test-carbondata.json,内容如下:
運作即可(spark 1.6 都可以)
如果/tmp/carbondata/store/default/ 目錄生成了檔案就代表資料已經寫入。
<b>啟動sql查詢服務</b>
建立一個/tmp/empty.json檔案,内容為:
啟動指令:
查詢方式:
如果放在postman之類的東西裡,是這樣子的:
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLyImYjZTZkRzYjRTN4U2N0EDNldjN2AjN1gjYmRDOmJGNmRjNkJWO28CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
<b>常見問題</b>
如果出現類似
則是因為在你的環境裡找到了hadoop相關的配置檔案,比如hdfs-site.xml之類的。去掉或者自己寫一個,比如建立一個 hdfs-site.xml,然後寫入如下内容:
這樣就會讀本地檔案了。