主要介紹第一個工作流的建立、預覽、啟動過程,這條資料流将本地檔案中的資料進行處理,最終将處理過的資料存放到本地磁盤上(streamsets 運作在CentOS7上)。
1 資料準備階段
在本地磁盤的/tmp目錄下建立一個inputdatas 目錄,并将我們準備好的資料放置到該目錄下,這裡我們準備了一個json檔案,再在/tmp目錄下建立一個outputdatas用于存放處理後的資料。
2 資料流設計階段
(1)建立一個資料流,填寫資料流名字、描述資訊、定義一個标簽資訊。選擇資料流類型為Data Collect Pipeline,點選Save按鈕。
(2)完成第一步會進入資料流設計界面,如下圖: