hive通过spark导入hbase

2017-08-27 21:56:00

发现采用shcjar的话，总是执行到某个点就停止了

于是我打算尝试一下直接说哦用org.apache.hadoop.hbase.spark这个datasource看看

确实不行，即使没有createtable，也是报错没有权限创建表；还是专心来研究一下shc吧

翻看一下日志，日志注明了spark查看路径：http://192.168.156.104:4041

后来过了一段时间，报错

Failed 1 action: Unable to find region for a in test after 35 tries.: 1 time,

Can not infer schema for type: <type 'str'>

这是因为我尝试向HBase中插入

df = sc.parallelize(['b', '2.0']).toDF(schema=['col0', 'col1'])，插入的数据格式有误；

list_namespace 罗列naespace

list_namespace_tables XXX 罗列某个命名空间下的所有表

后来我想到了应该看日志；于是上网搜索了一下spark的日志，发现应该通过18088，History Server Log中能够看到一些蛛丝马迹

zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to authenticate using SASL (unknown error)

17/08/15 00:06:00 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect

难道是ZooKeeper的一些问题？

通过zkCli.sh报错，和上面是一样的，也就是说，zookeeper的客户端也是报错的，搜了一下可能的问题：

1.时间同步问题；

2.zoo.cfg的clientPort要设置为2181（和客户端hbase-site.xml一致）

3.hosts中对于localhost6一行要删掉

前两个排除了，想要通过第三种方式是一下，但是太烦了，集群所有的机器都要重启（修改hosts文件需要重启），我打算再看看，能够找到别的解决方案；后来我在通过ClouderaManager页面的时候，看到Zookeeper的一个配置告警，建议Server最少要三台；我突然想到曾经看到过zookeeper集群有选举机制，只有超过半数通过才能够提供服务；于是增加了两个实例，问题，解决了。

下面的是采用原生的Pyspark以及shcjar两种方式实现的hive到hbase，但是在实际测试中发现在大数据量（比如数据2个G）的情况下，这种pyspark方式会导致一个问题，卡在中间某个任务，之后被告知超时，然后YARN将其kill掉。可能是系统性能问题？

hive通过spark导入hbase

继续阅读

zookeeper集群配置简单版本

Kafka：Topic概念与API介绍

start to use skywalkingInstall JDK8Install ESInstall skywalkingRun Springboot JAR

ZooKeeper ： Curator框架之分布式屏障DistributedDoubleBarrier

使用 Spring AOP 时报错

ZooKeeper ： Curator框架之分布式锁InterProcessMutex

用户账号自动登录--解决方案

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

Nacos 2.0 升级前后性能对比压测

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结