天天看点

数据对接—kettle使用之十二

这一篇我们介绍转换插件的使用,去除重复记录和unique rows (hashset)。

去除重复记录控件

该步骤从流中移除重复的记录,根据指定的字段进行排除重复记录,还可以统计出重复的数量,下面是控件截图:

数据对接—kettle使用之十二

1、增加计数器到输出:如果你想知道多少重复行被去掉,就选择此选项。

2、重定向重复记录

注意事项:

1、使用前需要排序

unique rows (hashset)控件

该步骤也可以从流中移除重复的记录,下面是控件截图:

数据对接—kettle使用之十二

总结:

两个控件都是去重的控件,较大的区别是第一个控件去重前需要排序,第二个控件不需要排序就可以直接完成去重任务,需要哪一个控件自己选择吧。