幾種不同的ETL工具簡單了解

2023-07-05 06:00:52

個人從開始了解ETL到現在，接觸最多的還是sqoop，感覺sqoop更多見一點。

也不清楚為什麼那麼多公司要求kettle\informatic等等。

下面談一下個人對這些工具的了解，及應用場景

sqoop：個人感覺，大資料開發的同僚大部分都會用，主要用于hive與 mysql/oracle等傳統資料庫之間的資料傳輸。即時性比較強，拿來即用，固定的腳本，拿過來改個位址改個庫表名，就可以用。但隻是用于傳輸，具體log要重定向列印，開發者自主檢視程序。總體來說更偏向于開發者使用。

kettle ：圖形化ETL工具，相對于sqoop在伺服器上寫代碼操作而言，kettle有自己的應用程式界面，直接在windows就可以操作。這也間接的使其成為，外包服務提供商的首要選擇。因為甲方公司隻需要了解怎麼使用，非技術人員簡單的填寫就能實作ETL工作，并伴有流程圖解，排查錯誤。且并不需要了解它的原理，代碼等。其操作更加簡單，可視。

informatic: 1.總體性能比kettle好一些，（kettle是jvm） 2.收費軟體且部署比kettle稍微麻煩一點，但是還好，畢竟收費了，能用錢解決的都不是問題。3.informatic 支援非結構化資料源

對開發者來說：kettle與informatic 差別：1.都是圖形化簡單工具，甚至應用、運維角度來說informatic更簡單一些。2. kettle免費Informatic收費。3.kettle支援 sql、 java 、regrex 擴充性更強

SSIS：這個沒用過，但據說配合sql server 性能很好。除了在學校以外，目前沒有接觸到sql server 的應用場景

waterdrop: 接觸clickhouse 才了解的一個工具，大資料開發同僚可以了解一下。内嵌了spark,flink ，可以處理流、批資料，也包括 HIVE,MYSQL,ES,HBASE,MONGODB,CLICKHOUSE,ORACLE，這些資料庫之間的資料傳輸，運作在叢集上，其實就是把你的SQL轉化成spark on yarn 跑起來，包含了sourse channel sink ，封裝了一些filter 方法供大家使用。

datax：阿裡開源，直接操作腳本代碼，無界面，開源支援度較kettle少

目前隻了解這麼多，後續有接觸的話，持續更新...

幾種不同的ETL工具簡單了解

繼續閱讀

kettle js腳本裡添加xml資料

Kettle連接配接Clickhouse 自定義插件遇到的問題：注意：

KETTLE實作循環批量多表抽取添加字段

我現在才知道，原來女孩子學大資料更有優勢

hive啟動報錯---java.net.UnknownHostException: cluster

Phoenix Java API配置及使用總結# ZK方式# Query Server方式

KuduMaster 多節點配置

搭建Hadoop分布式叢集搭建Hadoop分布式叢集

采集日志Flume的叢集搭建與詳細配置

ETL 資料加載機制概述

大資料計算前資料抽取（ETL）概述

ETL的簡單了解

ETL思想（2021-05-31）

ETL詳解

ETL：etl簡介