這一篇我們介紹轉換插件的使用,去除重複記錄和unique rows (hashset)。
去除重複記錄控件
該步驟從流中移除重複的記錄,根據指定的字段進行排除重複記錄,還可以統計出重複的數量,下面是控件截圖:

1、增加計數器到輸出:如果你想知道多少重複行被去掉,就選擇此選項。
2、重定向重複記錄
注意事項:
1、使用前需要排序
unique rows (hashset)控件
該步驟也可以從流中移除重複的記錄,下面是控件截圖:
總結:
兩個控件都是去重的控件,較大的差別是第一個控件去重前需要排序,第二個控件不需要排序就可以直接完成去重任務,需要哪一個控件自己選擇吧。