Spark thriftserver连elasticsearch

2023-07-31 11:04:39

1.需要将elasticsearch-hadoop-2.1.0.Beta4.jar包放入/usr/local/spark/lib，下载地址为：https://www.elastic.co/products/hadoop/

2.需要在/usr/local/spark/conf的hive-site.xml中进行配置

3.启动thriftserver，并在—jars后面带上此jar包

./start-thriftserver.sh --master local--driver-class-path /usr/local/spark/postgresql-9.4-1201.jdbc41.jar --jars/usr/local/spark/lib/elasticsearch-hadoop-2.1.0.Beta4.jar

4.创建artists表，并将它的index名称命名为default，type名称命名为artists

Spark thriftserver连elasticsearch

5.可以看到它的数据，通过curl访问elasticsarch的rest api：

Spark thriftserver连elasticsearch

6.可以联合查询此表与已存在的表

Spark thriftserver连elasticsearch

此方法完美解决elasticsearch自身的api难以多表关联查询的问题。

Spark thriftserver连elasticsearch

继续阅读

8.日常问题整理[2022/6/23]hive初始化失败报错：Error: Duplicate key name ‘PCS_STATS_IDX‘ (state=42000,code=1061)

另一种扩展并加速Hadoop计算能力的计算架构—Presto

Hadoop 2.7.2 HA datanode 启动失败处理

pykafka性能比较

PyCharm 配置 Apache HUE 开发环境

BDTC PPT集萃（国外篇）：Facebook、LinkedIn等分享的大数据架构

elk笔记4--grok正则解析1 grok 切分方法2 grok 切分案例3 说明

手绘 SpringCloud微服务 VS DubboRPC服务

【Bigdata】数据中台总体架构图

Hive(十六)--内置函数大全 LanguageManual UDF

Mac下Spark2.1.0的伪分布式安装配置

HDFS与Hive、HBase之间到底是什么关系

Java API HbaseUtil工具类

Impala invalidate metadata详细使用方法说明

关系型数据库和非关系型数据库关系型数据库和非关系型数据库

User Defined Hadoop DataType