天天看點

kettle學習筆記(四)——kettle輸入步驟

  輸入步驟主要分為以下幾類:

    • 生成記錄/自定義常量

    • 擷取系統資訊

    • 表輸入

    • 文本檔案輸入

    • XML 檔案輸入

    • Json輸入

    • 其他輸入步驟

  

kettle學習筆記(四)——kettle輸入步驟

  1.生成記錄

    

kettle學習筆記(四)——kettle輸入步驟

    由于生成記錄每行都是一樣的資料,是以便誕生了自定義常量資料來手工模拟資料

  2.自定義常量資料

kettle學習筆記(四)——kettle輸入步驟

  常用于構造一些測試資料

  獲得各類系統資訊,常見的包括:

    • 轉換開始時間。

    • 關鍵時間點資訊

    • 最多十個指令行參數

    • 主機名/ip/程序号/虛拟機記憶體等

    • 上一個作業的完成情況參數

kettle學習筆記(四)——kettle輸入步驟

      // 固定是整個轉換開始的時間

kettle學習筆記(四)——kettle輸入步驟

  更多系統資訊細節,參考相關文檔

  表輸入是比較常見的輸入方式,通過執行SELECT語句,從資料庫拉取輸入資料

  可以使用${}形式使用變量,如果使用?變量,要求前面步驟傳過來的參數需要順序一緻

  示例表輸入配置如下:

kettle學習筆記(四)——kettle輸入步驟
kettle學習筆記(四)——kettle輸入步驟

   配置變量輸入:

kettle學習筆記(四)——kettle輸入步驟

   資料類型對應關系:

kettle學習筆記(四)——kettle輸入步驟
kettle學習筆記(四)——kettle輸入步驟

  文本檔案輸入:

    處理有列分隔符(限定符、逃逸字元)的文本檔案。

    功能選項豐富、有錯誤處理機制。

  CSV 檔案輸入:

    簡化了文本檔案輸入

    通過 NIO、并行、延遲轉換提高性能

   固定寬度:

    列固定寬度的檔案,不用解析字元串,性能好。

   1.文本檔案輸入

     先看檔案這一項:

kettle學習筆記(四)——kettle輸入步驟

  輕按兩下檔案節點進入編輯,直接點選浏覽進行選擇不是很推薦,

  推薦使用變量(凡是旁邊一個$形狀的,都可以根據提示使用變量,内置變量參考這裡),單擊變量,旁邊會顯示變量的值,可以進行參考

  可以在第一行選擇檔案或者目錄,選擇目錄則可以在規則表達式進一步通過正則進行控制

  然後點選增加,增加檔案到選中的檔案框中,之後點選顯示檔案名進行檔案選擇結果檢視

  也可以點選下方從步驟選擇檔案

  繼續設定輸入的内容頁:

kettle學習筆記(四)——kettle輸入步驟

    // 這裡目前不知何解,設定制表符\t字段會識别失敗。換成分号;等就正常了

  解決方案如下:

    使用sublime先安裝hexVIew插件,使用插件,點選toggle檢視制表符的十六進制,然後分隔符處通過$[],例如制表符檢視是09;

  則分隔符為:$[09]

  字段頁通過擷取字段檢視分割結果:預覽記錄檢視記錄結果

kettle學習筆記(四)——kettle輸入步驟

  錯誤處理頁可以進行相關設定:

kettle學習筆記(四)——kettle輸入步驟

  過濾頁可以進行字段過濾:

    例如選擇第二列(從0開始位置),含有bb的

kettle學習筆記(四)——kettle輸入步驟

  2.固定寬度

    要求每一行都是固定寬度,然後通過寬度截取

###  XML輸入暫不贅述

###  JSON輸入暫不贅述

  Excel 輸入

  Access 輸入

  配置檔案輸入

  SAP 輸入

  Oracle CDC 增量輸入

  消息隊列輸入

  PDF檔案輸入

  搜尋引擎結果輸入