kettle也稱pdi,資料整合工具
kettle的官網:https://community.hitachivantara.com/s/article/data-integration-kettle
1、kettle執行分為兩個層次:job(作業)和transformation(轉換)
job:可以有多個transformation同時存在,job進行排程
transformation中有多個步驟(元件):資料的讀取、資料處理(如多餘字段的過濾、修改等)、往hdfs中加載
2、轉換包含兩個部分:step(步驟)和hop(跳)
步驟也叫元件,transformation中的多個組成部分
跳也叫連接配接,多個步驟之間的連接配接(消息隊列)
1、spoon:圖形化界面工具,操作job和transformation都可以在這個界面中完成
2、pan:用于終端執行transformation,沒有圖形化界面
3、kitchen:job執行器(指令行方式),在終端執行job,沒有圖形化界面
4、carte:遠端執行job或transformation,kettle通過carte建立叢集
特點:
1、免費開源,基于java的免費開源軟體,對商業使用者沒有限制
2、在windows、linux、unix上運作,不需要安裝
3、支援不同資料庫
4、圖形化界面
5、定時功能
應用場景:
1、資料庫之間資料的遷移
2、資料庫導出資料到檔案
3、導入大規模資料到資料庫
4、資料清洗
下載下傳:
安裝:解壓後輕按兩下spoon.bat即可啟動kettle
1、需求:讀取csv檔案,轉換成excel檔案
在輸入中選擇csv,輸出中選擇excel,按住shift建立跳,儲存并運作
注意:
各個轉換中每個步驟的啟動順序是不固定的
但是當有多個轉換時,job可以控制步驟的執行順序
2、每一個job必須由start開頭,綠色箭頭代表成功後執行下一步驟,紅色箭頭代表失敗後執行下一步驟,黃色箭頭代表無條件執行