天天看點

幾種不同的ETL工具簡單了解

個人從開始了解ETL到現在,接觸最多的還是sqoop,感覺sqoop更多見一點。

也不清楚為什麼那麼多公司要求kettle\informatic等等。

下面談一下個人對這些工具的了解,及應用場景

sqoop:個人感覺,大資料開發的同僚大部分都會用,主要用于hive與 mysql/oracle等傳統資料庫 之間的資料傳輸。即時性比較強,拿來即用,固定的腳本,拿過來改個位址改個庫表名 ,就可以用。但隻是用于傳輸,具體log要重定向列印,開發者自主檢視程序。總體來說更偏向于開發者使用。

kettle :圖形化ETL工具,相對于sqoop在伺服器上寫代碼操作而言,kettle有自己的應用程式界面,直接在windows就可以操作。這也間接的使其成為,外包服務提供商的首要選擇。因為甲方公司隻需要了解怎麼使用,非技術人員簡單的填寫就能實作ETL工作,并伴有流程圖解,排查錯誤。且并不需要了解它的原理,代碼等。其操作更加簡單,可視。

informatic:  1.總體性能比kettle好一些,(kettle是jvm) 2.收費軟體 且 部署比kettle稍微麻煩一點,但是還好,畢竟收費了,能用錢解決的都不是問題。3.informatic 支援非結構化資料源

對開發者來說:kettle與informatic 差別:1.都是圖形化簡單工具,甚至應用、運維角度來說informatic更簡單一些。2. kettle免費Informatic收費。3.kettle支援 sql、 java 、regrex 擴充性更強

SSIS:  這個沒用過,但據說配合sql server 性能很好。除了在學校以外,目前沒有接觸到sql server  的應用場景

waterdrop:  接觸clickhouse 才了解的一個工具,大資料開發同僚可以了解一下。内嵌了spark,flink ,可以處理流、批資料,也包括 HIVE,MYSQL,ES,HBASE,MONGODB,CLICKHOUSE,ORACLE,這些資料庫之間的資料傳輸,運作在叢集上,其實就是把你的SQL轉化成spark on yarn 跑起來,包含了sourse channel sink ,封裝了一些filter 方法 供大家使用。

datax:阿裡開源,直接操作腳本代碼,無界面,開源支援度較kettle少

目前隻了解這麼多,後續有接觸的話,持續更新...

繼續閱讀