Kettle 記錄集連接配接實戰

2023-05-17 22:46:25

Kettle 記錄集連接配接實戰

之前文章中 kettle 實戰記錄這個是之前的需求，使用記錄集連接配接優化了程式，取消了阻塞資料的元件，針對批量積壓的檔案也可以從容應對。

https://blog.csdn.net/qq_35995514/article/details/106856885

Kettle 記錄集連接配接實戰

需求：将HDFS檔案解析，将最新的裝置狀态更新到資料庫，由于檔案是5分鐘2個（可控制），隻想拿到最新的裝置狀态字段做裝置資訊更新，是以對檔案中的字段做分組排序（文本檔案輸入2），根據時間拿到每個裝置的最新上報時間；

兩個文本輸入的資料是一樣的，檔案檔案輸入2 拿到最新的時間字段然後和文本檔案輸入記錄集連接配接拿到想要解析的處理的字段；

更新IP的分支是讀取資料庫的配置資訊将IP變化的更新到資料庫中，用的是部門提供的存儲過程，記錄集連接配接的是檔案解析出的字段和配置庫查詢出的字段資訊。

優化後的 ETL 過程

Kettle 記錄集連接配接實戰

分組之前一樣要将分組字段排序，然後根據時間排序

Kettle 記錄集連接配接實戰

根據兩個字段分組，按照時間字段排序

Kettle 記錄集連接配接實戰

連接配接類型為 inner 跟兩個表的 join 差不多

Kettle 記錄集連接配接實戰

記錄集連接配接之前必須将要連接配接的字段排好序，升序或者降序要保持一緻

Kettle 記錄集連接配接實戰

調用存儲過程，存儲過程是查詢資料庫，要将查詢出的結果集輸出就要用表輸入而不能用調用存儲過程的的元件

Kettle 記錄集連接配接實戰

這個步驟使用到了去除重複記錄元件，将兩個IP 相同的記錄去除掉，去除重複記錄元件之前兩個字段也要排序，但是這個元件是将字段全部相同記錄集去除，隻是減少記錄

Kettle 記錄集連接配接實戰

JS判斷兩個字段IP是否相等

Kettle 記錄集連接配接實戰

IP不等也就是條件為 TRUE的時候将變了的 IP 第三個字段給到後面的調用存儲過程。

Kettle 記錄集連接配接實戰

Kettle 記錄集連接配接實戰

優化後的 ETL 過程

繼續閱讀

kettle源代碼解析(1)——plugin系統分析1 plugin機制

Data Integration - Kettle 6.0下載下傳安裝

Kettle8.2學習和測試1介紹2存儲方式3自帶設計4組成5測試(Mysql<==>Mysql)6測試(Mysql<==>ES5.x)7測試(Mysql<==>Hive2)8測試(Kafka2.11<==>ES5.x)9記錄問題

英語第152天，學習新概念英語，今天學習關于“Hurryup”相關英語。newwords:kettlen.水壺teapo

kettle-從rocketmq消費消息

Homebrew 安裝 kettle 過程中報錯 for Mac

kettle實戰-2基本知識-2.2作業

kettle spoon同步oracle的點空間資料到postgresql一、postgresql空間擴充二、postgresql中建立點空間資料表三、同步oracle空間資料到postgresql

KETTLE連接配接ClickHouse資料庫場景說明各軟體安裝包下載下傳位址将jar包放到KETTLE下的具體檔案打開KETTLE連接配接clickhouse

Kettle連接配接Clickhouse 自定義插件遇到的問題：注意：

KETTLE實作循環批量多表抽取添加字段

kettle中循環周遊不同位址不同庫名

kettle 循環 oracle資料批量入Elasticsearch oracle循環導出資料檔案 job循環

kettle循環（隻适用于資料量不大的情況下）

kettle 一個資料庫錯誤發生在從資源庫檔案讀取轉換時 Invalid byte 1 of 1-byte UTF-8 sequence

使用kettle報Invalid byte 1 of 1-byte UTF-8 sequence異常使用kettle時報Invalid byte 1 of 1-byte UTF-8 sequence異常