Sqoop导入关系数据库到Hive1. 安装 Sqoop2. 使用2.2 导入数据到 hdfs2.3 创建 hive 表2.4 导入数据到 hive2.5 增量导入2.6 合并 hdfs 文件

sqoop 是 apache 下用于 rdbms 和 hdfs 互相导数据的工具。本文以 mysql 数据库为例，实现关系数据库导入到 hdfs 和 hive。

使用 rpm 安装即可。

安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。

这里使用 hive 的 metastore 的 mysql 数据库作为关系数据库，以 tbls 表为例，该表结构和数据如下：

查看 sqoop 命令说明：

你也可以查看某一个命令的使用说明：

你也可以使用别名来代替 <code>sqoop (toolname)</code>：

sqoop import 的一个示例如下：

你还可以使用 <code>--options-file</code> 来传入一个文件，使用这种方式可以重用一些配置参数：

/users/homer/work/import.txt 文件内容如下：

使用 sqoop-import 命令可以从关系数据库导入数据到 hdfs。

注意：

mysql jdbc url 请使用 ip 地址

如果重复执行，会提示目录已经存在，可以手动删除

如果不指定 <code>--target-dir</code>，导入到用户家目录下的 tbls 目录

你还可以指定其他的参数：

参数

说明

<code>--append</code>

将数据追加到hdfs中已经存在的dataset中。使用该参数，sqoop将把数据先导入到一个临时目录中，然后重新给文件命名到一个正式的目录中，以避免和该目录中已存在的文件重名。

<code>--as-avrodatafile</code>

将数据导入到一个avro数据文件中

<code>--as-sequencefile</code>

将数据导入到一个sequence文件中

<code>--as-textfile</code>

将数据导入到一个普通文本文件中，生成该文本文件后，可以在hive中通过sql语句查询出结果。

<code>--boundary-query <statement></code>

边界查询，也就是在导入前先通过sql查询得到一个结果集，然后导入的数据就是该结果集内的数据，格式如：<code>--boundary-query 'select id,no from t where id = 3'</code>，表示导入的数据为id=3的记录，或者 <code>select min(<split-by>), max(<split-by>) from <table name></code>，注意查询的字段中不能有数据类型为字符串的字段，否则会报错

<code>--columns<col,col></code>

指定要导入的字段值，格式如：<code>--columns id,username</code>

<code>--direct</code>

直接导入模式，使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快

<code>--direct-split-size</code>

在使用上面direct直接导入的基础上，对导入的流按字节数分块，特别是使用直连模式从postgresql导入数据的时候，可以将一个到达设定大小的文件分为几个独立的文件。

<code>--inline-lob-limit</code>

设定大对象数据类型的最大值

<code>-m,--num-mappers</code>

启动n个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数

<code>--query，-e <sql></code>

从查询结果中导入数据，该参数使用时必须指定<code>–target-dir</code>、<code>–hive-table</code>，在查询语句中一定要有where条件且在where条件中需要包含 <code>\$conditions</code>，示例：<code>--query 'select * from t where \$conditions ' --target-dir /tmp/t –hive-table t</code>

<code>--split-by <column></code>

表的列名，用来切分工作单元，一般后面跟主键id

<code>--table <table-name></code>

关系数据库表名，数据从该表中获取

<code>--delete-target-dir</code>

删除目标目录

<code>--target-dir <dir></code>

指定hdfs路径

<code>--warehouse-dir <dir></code>

与 <code>--target-dir</code> 不能同时使用，指定数据导入的存放目录，适用于hdfs导入，不适合导入hive目录

<code>--where</code>

从关系数据库导入数据时的查询条件，示例：<code>--where "id = 2"</code>

<code>-z,--compress</code>

压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于sequencefile, text文本文件, 和avro文件

<code>--compression-codec</code>

hadoop压缩编码，默认是gzip

<code>--null-string <null-string></code>

可选参数，如果没有指定，则字符串null将被使用

<code>--null-non-string <null-string></code>

示例程序：

参照上表，使用 sql 语句查询时，需要指定 <code>$conditions</code>

上面命令通过 <code>-m 1</code> 控制并发的 map 数。

这时候查看 hdfs 中数据(观察分隔符是否为制表符)：

指定空字符串：

如果需要指定压缩：

附：可选的文件参数如下表。

<code>--enclosed-by <char></code>

给字段值前后加上指定的字符，比如双引号，示例：<code>--enclosed-by '\"'</code>，显示例子：”3”,”jimsss”,”[email protected]”

<code>--escaped-by <char></code>

给双引号作转义处理，如字段值为”测试”，经过 <code>--escaped-by "\\"</code> 处理后，在hdfs中的显示值为：<code>\"测试\"</code>，对单引号无效

<code>--fields-terminated-by <char></code>

设定每个字段是以什么符号作为结束的，默认是逗号，也可以改为其它符号，如句号<code>.</code>，示例如：<code>--fields-terminated-by</code>

<code>--lines-terminated-by <char></code>

设定每条记录行之间的分隔符，默认是换行串，但也可以设定自己所需要的字符串，示例如：<code>--lines-terminated-by "#"</code> 以#号分隔

<code>--mysql-delimiters</code>

mysql默认的分隔符设置，字段之间以<code>,</code>隔开，行之间以换行<code>\n</code>隔开，默认转义符号是<code>\</code>，字段值以单引号<code>'</code>包含起来。

<code>--optionally-enclosed-by <char></code>

enclosed-by是强制给每个字段值前后都加上指定的符号，而<code>--optionally-enclosed-by</code>只是给带有双引号或单引号的字段值加上指定的符号，故叫可选的

生成与关系数据库表的表结构对应的hive表：

hive的安装目录，可以通过该参数覆盖掉默认的hive目录

<code>--hive-overwrite</code>

覆盖掉在hive表中已经存在的数据

<code>--create-hive-table</code>

默认是false，如果目标表已经存在了，那么创建任务会失败

<code>--hive-table</code>

后面接要创建的hive表

<code>--table</code>

指定关系数据库表名

执行下面的命令会将 mysql 中的数据导入到 hdfs 中，然后创建一个hive 表，最后再将 hdfs 上的文件移动到 hive 表的目录下面。

说明：

可以在 hive 的表名前面指定数据库名称

可以通过 <code>--create-hive-table</code> 创建表，如果表已经存在则会执行失败

接下来可以查看 hive 中的数据：

直接查看文件内容：

从上面可见，数据导入到 hive 中之后分隔符为默认分隔符，参考上文你可以通过设置参数指定其他的分隔符。

另外，sqoop 默认地导入空值（null）为 null 字符串，而 hive 使用 \n 去标识空值（null），故你在 import 或者 export 时候，需要做相应的处理。在 import 时，使用如下命令：

在导出时，使用下面命令：

一个完整的例子如下：

<code>--check-column (col)</code>

用来作为判断的列名，如id

<code>--incremental (mode)</code>

append：追加，比如对大于last-value指定的值之后的记录进行追加导入。lastmodified：最后的修改时间，追加last-value指定的日期之后的记录

<code>--last-value (value)</code>

指定自从上次导入后列的最大值（大于该指定的值），也可以自己设定某一值

将hdfs中不同目录下面的数据合在一起，并存放在指定的目录中，示例如：

其中，<code>–class-name</code> 所指定的 class 名是对应于 person.jar 中的 person 类，而 person.jar 是通过 codegen 生成的

hdfs中存放数据的一个目录，该目录中的数据是希望在合并后能优先保留的，原则上一般是存放越新数据的目录就对应这个参数。

hdfs中存放数据的一个目录，该目录中的数据是希望在合并后能被更新数据替换掉的，原则上一般是存放越旧数据的目录就对应这个参数。

<code>--merge-key <col></code>

合并键，一般是主键id

合并时引入的jar包，该jar包是通过codegen工具生成的jar包

<code>--class-name <class></code>

对应的表名或对象名，该class类是包含在jar包中的。

<code>--target-dir <path></code>

合并后的数据在hdfs里的存放目录

Sqoop导入关系数据库到Hive1. 安装 Sqoop2. 使用2.2 导入数据到 hdfs2.3 创建 hive 表2.4 导入数据到 hive2.5 增量导入2.6 合并 hdfs 文件

继续阅读

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

mysql使用source命令导入.sql文件

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

sqlServer根据经纬查距离

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method