讓CarbonData使用更簡單

2021-11-07 19:15:40

carbondata 是什麼

引用官方的說法：

apache carbondata是一種新的高性能資料存儲格式，針對目前大資料領域分析場景需求各異而導緻的存儲備援問題，carbondata提供了一種新的融合資料存儲方案，以一份資料同時支援“任意次元組合的過濾查詢、快速掃描、詳單查詢等”多種應用場景，并通過多級索引、字典編碼、列存等特性提升了io掃描和計算性能，實作百億資料級秒級響應。

carbondata的使用

我之前寫過一篇使用的文章。carbondata叢集模式體驗。到0.3.0版本，已經把kettle去掉了，并且我送出的pr已經能夠讓其在spark streaming中運作。之後将其內建到streamingpro中，可以簡單通過配置即可完成資料的流式寫入和作為sql服務被讀取。

準備工作

carbondata 使用了hive的metastore。

mysql資料庫

hive-site.xml 檔案

下載下傳streamingpro with carbondata

mysql

建立一個庫：

hdfs-site.xml

建立檔案 /tmp/hdfs-site.xml,然後寫入如下内容：

啟動spark streaming寫入資料

建立一個檔案，/tmp/streaming-test-carbondata.json，内容如下：

運作即可(spark 1.6 都可以)

如果/tmp/carbondata/store/default/ 目錄生成了檔案就代表資料已經寫入。

啟動sql查詢服務

建立一個/tmp/empty.json檔案，内容為：

啟動指令：

查詢方式：

如果放在postman之類的東西裡，是這樣子的：

常見問題

如果出現類似

則是因為在你的環境裡找到了hadoop相關的配置檔案，比如hdfs-site.xml之類的。去掉或者自己寫一個，比如建立一個 hdfs-site.xml，然後寫入如下内容：

這樣就會讀本地檔案了。

讓CarbonData使用更簡單

繼續閱讀

阿裡雲天池龍珠計劃SQL訓練營day1

實驗樓sql進階之成績管理系統的資料操作(window)

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

HiveQl語句應用執行個體：WordCount具體步驟如下：

Spark實作wordcount

Oracle的基本操作

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

neo4j之cypher使用文檔

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

sqlServer根據經緯查距離