Spark thriftserver連elasticsearch

2023-07-31 11:04:39

1.需要将elasticsearch-hadoop-2.1.0.Beta4.jar包放入/usr/local/spark/lib，下載下傳位址為：https://www.elastic.co/products/hadoop/

2.需要在/usr/local/spark/conf的hive-site.xml中進行配置

3.啟動thriftserver，并在—jars後面帶上此jar包

./start-thriftserver.sh --master local--driver-class-path /usr/local/spark/postgresql-9.4-1201.jdbc41.jar --jars/usr/local/spark/lib/elasticsearch-hadoop-2.1.0.Beta4.jar

4.建立artists表，并将它的index名稱命名為default，type名稱命名為artists

Spark thriftserver連elasticsearch

5.可以看到它的資料，通過curl通路elasticsarch的rest api：

Spark thriftserver連elasticsearch

6.可以聯合查詢此表與已存在的表

Spark thriftserver連elasticsearch

此方法完美解決elasticsearch自身的api難以多表關聯查詢的問題。

Spark thriftserver連elasticsearch

繼續閱讀

8.日常問題整理[2022/6/23]hive初始化失敗報錯：Error: Duplicate key name ‘PCS_STATS_IDX‘ (state=42000,code=1061)

另一種擴充并加速Hadoop計算能力的計算架構—Presto

Hadoop 2.7.2 HA datanode 啟動失敗處理

pykafka性能比較

PyCharm 配置 Apache HUE 開發環境

BDTC PPT集萃（國外篇）：Facebook、LinkedIn等分享的大資料架構

elk筆記4--grok正則解析1 grok 切分方法2 grok 切分案例3 說明

手繪 SpringCloud微服務 VS DubboRPC服務

【Bigdata】資料中台總體架構圖

Hive(十六)--内置函數大全 LanguageManual UDF

Mac下Spark2.1.0的僞分布式安裝配置

HDFS與Hive、HBase之間到底是什麼關系

Java API HbaseUtil工具類

Impala invalidate metadata詳細使用方法說明

關系型資料庫和非關系型資料庫關系型資料庫和非關系型資料庫

User Defined Hadoop DataType