背景:
談到微服務化,肯定會想到容器,談到java的微服務化,勢必也想到spring cloud,但是談到資料微服務化,可能或多或少大家不太了解。Data Microservices被提出來,是要解決現在資料時代下,需要解決如下幾個痛點問題,不分先後次序:
- 資料來源錯綜複雜,mq、rest、jdbc、log等
- 資料的資訊結構複雜多樣化
- 資料量很大,想象下爬蟲、電商平台、新零售等
- 容器、雲平台越來越穩健
- 機器學習、深度學習
并不是說之前的沒有Data Microservices,就做不了知識圖譜或者資料倉庫,而是Data Microservices提出來之後,能夠更好的支撐起整個資料架構工作。
接下來我暢談下我是如何基于spring cloud data flow(scdf),建構起我們公司的整個資料架構工作,我們是k8s做的彈性計算
首先:
來自于官方的圖

玩過spring cloud的同學,肯定不會陌生對于上面幾個元件,同樣我們的開發都是基于spring boot、docker容器,編排工具是k8s。
然後:
一個完整的資料流圖,必然有輸入-處理-輸出,
我們再來看看,它支援的有哪些
結論:
具體的代碼,可以參考我的github的位址,大概支援了pmml、hdfs、jdbc,如果我們把SCDF簡單點使用,就是強大無比的ETL工具,如果把SCDF功能進一步加強,至少能夠替換stream流處理,加上pmml、tensflow,無比強大的工具