天天看點

資料對接—kettle使用之十二

這一篇我們介紹轉換插件的使用,去除重複記錄和unique rows (hashset)。

去除重複記錄控件

該步驟從流中移除重複的記錄,根據指定的字段進行排除重複記錄,還可以統計出重複的數量,下面是控件截圖:

資料對接—kettle使用之十二

1、增加計數器到輸出:如果你想知道多少重複行被去掉,就選擇此選項。

2、重定向重複記錄

注意事項:

1、使用前需要排序

unique rows (hashset)控件

該步驟也可以從流中移除重複的記錄,下面是控件截圖:

資料對接—kettle使用之十二

總結:

兩個控件都是去重的控件,較大的差別是第一個控件去重前需要排序,第二個控件不需要排序就可以直接完成去重任務,需要哪一個控件自己選擇吧。