天天看点

数据对接—kettle使用之一

需求:

      你有没有遇到过不同数据库之间数据对接的需求,比如:mysql数据库里的数据要保存到oracle数据库里,或者是excel里的数据要保存到数据库里,或者是数据库的数据要定时的保存到文件中等等数据对接的问题。下面就开始介绍一款软件来帮助我们实现各种数据对接的问题,这将是一个系列的博客,这篇只是个开始,后面将陆续的通过实例来讲解软件如何使用,当然不可能面面俱到,很多功能还需要我们不断的挖掘和完善。

工具介绍:

      说了这么多这个软件到底是什么呢?就是一个我们中文意思是水壶的英文单词kettle,当然它的原意不是这样的,它是“kettle e.t.t.l. envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ettl需要:抽取、转换、装入和加载数据。kettle也叫 pdi,在2006年 kettle 加入了开源的 bi 组织 pentaho, 正式命名为pdi,英文全称为pentaho data integeration。这个工具也正如我们中文翻译为水壶那样,它希望把所有需要的数据放到一个水壶里,然后以流的方式流出来。

功能介绍:

      kettle可以创建两种脚本文件,一种是transformation(*.ktr),就是任务,比如抽取数据,合并修改后再存入数据库什么的。 另一种是job(*.kjb),就是用来调用transformation的,类似oracle里的job调用存储过程。如下面的图分别是transformation脚本和job脚本。

数据对接—kettle使用之一
数据对接—kettle使用之一

      上面两张图是两种脚本,通过第二种脚本调用第一种脚本我们可以配置定时任务,可以指定时间让系统自动执行数据抓取以及转换,是不是很强大的工具,不着急,后面才是真正的开始,看看它到底能有多大本事。

运行环境:

如何启动:

      spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用pan工具来运行,任务是用kitchen来运行。pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。kitchen是一个可以运行利用xml或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。

      下面是在不同的平台上运行spoon所支持的脚本:

         spoon.bat:在windows 平台运行spoon。

         spoon.sh:在 linux、apple osx、solaris 平台运行 spoon。

这篇就介绍到这里,下一篇我们进入实例讲解…