天天看點

資料處理基于DataMicroservices實作

背景:

談到微服務化,肯定會想到容器,談到java的微服務化,勢必也想到spring cloud,但是談到資料微服務化,可能或多或少大家不太了解。Data Microservices被提出來,是要解決現在資料時代下,需要解決如下幾個痛點問題,不分先後次序:

  • 資料來源錯綜複雜,mq、rest、jdbc、log等
  • 資料的資訊結構複雜多樣化
  • 資料量很大,想象下爬蟲、電商平台、新零售等
  • 容器、雲平台越來越穩健
  • 機器學習、深度學習

并不是說之前的沒有Data Microservices,就做不了知識圖譜或者資料倉庫,而是Data Microservices提出來之後,能夠更好的支撐起整個資料架構工作。

接下來我暢談下我是如何基于spring cloud data flow(scdf),建構起我們公司的整個資料架構工作,我們是k8s做的彈性計算

首先:

來自于官方的圖

資料處理基于DataMicroservices實作

 玩過spring cloud的同學,肯定不會陌生對于上面幾個元件,同樣我們的開發都是基于spring boot、docker容器,編排工具是k8s。

然後:

一個完整的資料流圖,必然有輸入-處理-輸出,

資料處理基于DataMicroservices實作

我們再來看看,它支援的有哪些

資料處理基于DataMicroservices實作

結論:

具體的代碼,可以參考我的github的位址,大概支援了pmml、hdfs、jdbc,如果我們把SCDF簡單點使用,就是強大無比的ETL工具,如果把SCDF功能進一步加強,至少能夠替換stream流處理,加上pmml、tensflow,無比強大的工具

繼續閱讀