用sqoop将MySQL的数据导入到Hive分区表中

2023-05-18 05:02:42

在工作中，我们经常遇到的业务就是要将MySQL每天差生的生产数据定时导入到Hive的分区表中，然后根据分区表中的数据进行“数仓建设”，各种数据处理。

那么怎么运用sqoop将MySQL的数据导入到hive的分区表中呐?

首先，不能再用--hive-table, --hive-partition-key, --hive-partition-value这三个参数。因为这样只能向单个分区导入数据，无法指定多个分区。

其实我采用的方法是分两步进行的：

1、用sqoop将MySQL的数据导入HDFS上，注意HDFS存储的路径文件夹以分区的字段数据命名。

比如：

sqoop import --connect  jdbc:mysql://localhost:3306/track_log \
--username root --password 123456  --table track_log18 \
 -m 1  \
--target-dir /user/hive/warehouse/track_log/ds=20190622 
--fields-terminated-by '\t'  //这个也很重要，否则查询一列时会返回多列

这样的话，数据导入到了HDFS中，

2、建立分区并且将数据加载进去：

alter table track_log add partition(ds='20190622') 
location '/user/hive/warehouse/track_log/ds=20190622';

这样分区的数据就加载进去了。

注意点：这两步之间最好插入一些检验的步骤。

比如说：

在1之前，检验分区是否已经存在，存在的话，直接删掉（注意会删除数据，但是在第二步会将数据再次加载，这样根据业务来说，是没有问题的）

在2之前，检验一下HDFS的目录是否存在，存在再执行第2步。

用sqoop将MySQL的数据导入到Hive分区表中

继续阅读

学大数据是先学java还是先学python?强烈推荐阅读下列文章

大数据架构体系与Hadoop生态系统

大数据入门发展方向

使用ElasticSearch在bulk导入json数据时，The bulk request must be terminated by a newline [\n]问题重现解决历程

如何开始学习大数据

Zookeeper Java 客户端 ——Apache CuratorZookeeper Java 客户端 ——Apache Curator

flume上传hdfs的配置文件

Flume拓扑结构Flume的拓扑结构有以下四种

基于【八股文】格式编写WordCount程序

03-zookeeper基础1. zookeeper客户端命令操作2. zookeeper内部原理3.API操作

【大数据技术】从单体到Flink：一文读懂数据架构的演变

大数据学习之 hbase1.3.1安装1.准备工作，启动ZK和hadoop2.解压缩habse3.修改配置文件4.配置环境变量5.HBase远程scp到其他集群6.启动之前，查看hadoop和ZK7.启动hbase，在hadoop和ZK上增加了hbase8.查看hbase页面

Hive窗口函数Over和排序函数Rank

BigData1：初识Hadoop

那些说35岁就要失业的人，你可能已经被00后拍翻在了沙滩上----谁说这一代青年是废掉的一代！（建议收藏一键三连）