天天看點

kettle

kettle也稱pdi,資料整合工具

kettle的官網:https://community.hitachivantara.com/s/article/data-integration-kettle

kettle

1、kettle執行分為兩個層次:job(作業)和transformation(轉換)

  job:可以有多個transformation同時存在,job進行排程

  transformation中有多個步驟(元件):資料的讀取、資料處理(如多餘字段的過濾、修改等)、往hdfs中加載

2、轉換包含兩個部分:step(步驟)和hop(跳)

  步驟也叫元件,transformation中的多個組成部分

  跳也叫連接配接,多個步驟之間的連接配接(消息隊列)

1、spoon:圖形化界面工具,操作job和transformation都可以在這個界面中完成

2、pan:用于終端執行transformation,沒有圖形化界面

3、kitchen:job執行器(指令行方式),在終端執行job,沒有圖形化界面

4、carte:遠端執行job或transformation,kettle通過carte建立叢集

特點:

1、免費開源,基于java的免費開源軟體,對商業使用者沒有限制

2、在windows、linux、unix上運作,不需要安裝

3、支援不同資料庫

4、圖形化界面

5、定時功能

應用場景:

1、資料庫之間資料的遷移

2、資料庫導出資料到檔案

3、導入大規模資料到資料庫

4、資料清洗

下載下傳:

kettle

安裝:解壓後輕按兩下spoon.bat即可啟動kettle

1、需求:讀取csv檔案,轉換成excel檔案

kettle

 在輸入中選擇csv,輸出中選擇excel,按住shift建立跳,儲存并運作

注意:

  各個轉換中每個步驟的啟動順序是不固定的

  但是當有多個轉換時,job可以控制步驟的執行順序

2、每一個job必須由start開頭,綠色箭頭代表成功後執行下一步驟,紅色箭頭代表失敗後執行下一步驟,黃色箭頭代表無條件執行

kettle