天天看点

Sqoop导入关系数据库到Hive1. 安装 Sqoop2. 使用2.2 导入数据到 hdfs2.3 创建 hive 表2.4 导入数据到 hive2.5 增量导入2.6 合并 hdfs 文件

sqoop 是 apache 下用于 rdbms 和 hdfs 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。

使用 rpm 安装即可。

安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。

这里使用 hive 的 metastore 的 mysql 数据库作为关系数据库,以 tbls 表为例,该表结构和数据如下:

查看 sqoop 命令说明:

你也可以查看某一个命令的使用说明:

你也可以使用别名来代替 <code>sqoop (toolname)</code>:

sqoop import 的一个示例如下:

你还可以使用 <code>--options-file</code> 来传入一个文件,使用这种方式可以重用一些配置参数:

/users/homer/work/import.txt 文件内容如下:

使用 sqoop-import 命令可以从关系数据库导入数据到 hdfs。

注意:

mysql jdbc url 请使用 ip 地址

如果重复执行,会提示目录已经存在,可以手动删除

如果不指定 <code>--target-dir</code>,导入到用户家目录下的 tbls 目录

你还可以指定其他的参数:

参数

说明

<code>--append</code>

将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。

<code>--as-avrodatafile</code>

将数据导入到一个avro数据文件中

<code>--as-sequencefile</code>

将数据导入到一个sequence文件中

<code>--as-textfile</code>

将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。

<code>--boundary-query &lt;statement&gt;</code>

边界查询,也就是在导入前先通过sql查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:<code>--boundary-query 'select id,no from t where id = 3'</code>,表示导入的数据为id=3的记录,或者 <code>select min(&lt;split-by&gt;), max(&lt;split-by&gt;) from &lt;table name&gt;</code>,注意查询的字段中不能有数据类型为字符串的字段,否则会报错

<code>--columns&lt;col,col&gt;</code>

指定要导入的字段值,格式如:<code>--columns id,username</code>

<code>--direct</code>

直接导入模式,使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快

<code>--direct-split-size</code>

在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从postgresql导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。

<code>--inline-lob-limit</code>

设定大对象数据类型的最大值

<code>-m,--num-mappers</code>

启动n个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数

<code>--query,-e &lt;sql&gt;</code>

从查询结果中导入数据,该参数使用时必须指定<code>–target-dir</code>、<code>–hive-table</code>,在查询语句中一定要有where条件且在where条件中需要包含 <code>\$conditions</code>,示例:<code>--query 'select * from t where \$conditions ' --target-dir /tmp/t –hive-table t</code>

<code>--split-by &lt;column&gt;</code>

表的列名,用来切分工作单元,一般后面跟主键id

<code>--table &lt;table-name&gt;</code>

关系数据库表名,数据从该表中获取

<code>--delete-target-dir</code>

删除目标目录

<code>--target-dir &lt;dir&gt;</code>

指定hdfs路径

<code>--warehouse-dir &lt;dir&gt;</code>

与 <code>--target-dir</code> 不能同时使用,指定数据导入的存放目录,适用于hdfs导入,不适合导入hive目录

<code>--where</code>

从关系数据库导入数据时的查询条件,示例:<code>--where "id = 2"</code>

<code>-z,--compress</code>

压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于sequencefile, text文本文件, 和avro文件

<code>--compression-codec</code>

hadoop压缩编码,默认是gzip

<code>--null-string &lt;null-string&gt;</code>

可选参数,如果没有指定,则字符串null将被使用

<code>--null-non-string &lt;null-string&gt;</code>

示例程序:

参照上表,使用 sql 语句查询时,需要指定 <code>$conditions</code>

上面命令通过 <code>-m 1</code> 控制并发的 map 数。

这时候查看 hdfs 中数据(观察分隔符是否为制表符):

指定空字符串:

如果需要指定压缩:

附:可选的文件参数如下表。

<code>--enclosed-by &lt;char&gt;</code>

给字段值前后加上指定的字符,比如双引号,示例:<code>--enclosed-by '\"'</code>,显示例子:”3”,”jimsss”,”[email protected]

<code>--escaped-by &lt;char&gt;</code>

给双引号作转义处理,如字段值为”测试”,经过 <code>--escaped-by "\\"</code> 处理后,在hdfs中的显示值为:<code>\"测试\"</code>,对单引号无效

<code>--fields-terminated-by &lt;char&gt;</code>

设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如句号<code>.</code>,示例如:<code>--fields-terminated-by</code>

<code>--lines-terminated-by &lt;char&gt;</code>

设定每条记录行之间的分隔符,默认是换行串,但也可以设定自己所需要的字符串,示例如:<code>--lines-terminated-by "#"</code> 以#号分隔

<code>--mysql-delimiters</code>

mysql默认的分隔符设置,字段之间以<code>,</code>隔开,行之间以换行<code>\n</code>隔开,默认转义符号是<code>\</code>,字段值以单引号<code>'</code>包含起来。

<code>--optionally-enclosed-by &lt;char&gt;</code>

enclosed-by是强制给每个字段值前后都加上指定的符号,而<code>--optionally-enclosed-by</code>只是给带有双引号或单引号的字段值加上指定的符号,故叫可选的

生成与关系数据库表的表结构对应的hive表:

<code>--hive-home &lt;dir&gt;</code>

hive的安装目录,可以通过该参数覆盖掉默认的hive目录

<code>--hive-overwrite</code>

覆盖掉在hive表中已经存在的数据

<code>--create-hive-table</code>

默认是false,如果目标表已经存在了,那么创建任务会失败

<code>--hive-table</code>

后面接要创建的hive表

<code>--table</code>

指定关系数据库表名

执行下面的命令会将 mysql 中的数据导入到 hdfs 中,然后创建一个hive 表,最后再将 hdfs 上的文件移动到 hive 表的目录下面。

说明:

可以在 hive 的表名前面指定数据库名称

可以通过 <code>--create-hive-table</code> 创建表,如果表已经存在则会执行失败

接下来可以查看 hive 中的数据:

直接查看文件内容:

从上面可见,数据导入到 hive 中之后分隔符为默认分隔符,参考上文你可以通过设置参数指定其他的分隔符。

另外,sqoop 默认地导入空值(null)为 null 字符串,而 hive 使用 \n 去标识空值(null),故你在 import 或者 export 时候,需要做相应的处理。在 import 时,使用如下命令:

在导出时,使用下面命令:

一个完整的例子如下:

<code>--check-column (col)</code>

用来作为判断的列名,如id

<code>--incremental (mode)</code>

append:追加,比如对大于last-value指定的值之后的记录进行追加导入。lastmodified:最后的修改时间,追加last-value指定的日期之后的记录

<code>--last-value (value)</code>

指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一值

将hdfs中不同目录下面的数据合在一起,并存放在指定的目录中,示例如:

其中,<code>–class-name</code> 所指定的 class 名是对应于 person.jar 中的 person 类,而 person.jar 是通过 codegen 生成的

<code>--new-data &lt;path&gt;</code>

hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能优先保留的,原则上一般是存放越新数据的目录就对应这个参数。

<code>--onto &lt;path&gt;</code>

hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能被更新数据替换掉的,原则上一般是存放越旧数据的目录就对应这个参数。

<code>--merge-key &lt;col&gt;</code>

合并键,一般是主键id

<code>--jar-file &lt;file&gt;</code>

合并时引入的jar包,该jar包是通过codegen工具生成的jar包

<code>--class-name &lt;class&gt;</code>

对应的表名或对象名,该class类是包含在jar包中的。

<code>--target-dir &lt;path&gt;</code>

合并后的数据在hdfs里的存放目录