天天看點

StreamSets資料操作平台(資料移動及資料清洗強大工具)-第一篇1、支援多種安裝方式2、Streamsets運作平台3、Streamsets的特征4、應用場景-常見用例

1、支援多種安裝方式

1.1、核心安裝包(Core Tarball)

該安裝包包含核心的SDC軟體,使該軟體具有最小的軟體連接配接器集合,當然你可以手動下載下傳額外的節點(Stage)

①通過Streamsets的UI進行安裝,UI上點選的位置為:在該軟體界面的右邊(圖示是一個禮物盒子。。。)。

②也可以通過使用CLI進行安裝,安裝過程如下所示:

1、下載下傳該【核心安裝包】,比如版本為:streamsets-datacollector-core-3.0.2.0.tgz

2、解壓該安裝包

$tar xvzf streamsets-datacollector-core-3.0.2.0.tgz
           

3、列出所有的可下載下傳的所有節點Stage庫,可通過如下指令:

$./bin/streamsets stagelibs -list
           

4、通過CLI安裝所需要的節點庫,通過如下指令:

$ ./bin/streamsets stagelibs -install=<stageid1>,<stageid2>
           

1.2、Cloudera安裝包(Cloudera Parcel)

Cloudera版本安裝過程如下所示:

1、将CSD拷貝到一個目錄中,指令如下:

$ mv STREAMSETS-3.0.2.0.jar /opt/cloudera/csd/
           

2、修改檔案的權限,指令如下:

$ sudo chown cloudera-scm:cloudera-scm STREAMSETS-3.0.2.0.jar && sudo chmod 644 STREAMSETS-3.0.2.0.jar
           

3、重新開機Cloudera管理器,指令如下:

$ sudo /etc/init.d/cloudera-scm-server restart
           

1.3、包含所有元件的完整安裝包(Full Tarball)

完整版的安裝過程如下所示:

1、下載下傳該安裝包

2、解壓

$ tar xvzf streamsets-datacollector-all-3.0.2.0.tgz
           

3、解壓之後,就可以直接啟動,啟動指令為:

$ streamsets-datacollector-3.0.2.0/bin/streamsets dc
           

4、啟動之後就可以通過浏覽器檢視了,預設的通路位址為:

Browse to http://<system-ip>:18630/
           

5、UI界面看到之後,就可以通過該密碼進行登入

使用者名和密碼都為:admin

1.4、完整的RPM包(FullRPM)

該版本的安裝過程如下:

1、選擇合适的作業系統版本(如紅帽的el6或者el7),然後通過如下指令進行操作

$ tar xf streamsets-datacollector-3.0.2.0-[operating system]-all-rpms.tar
           
$ yum localinstall streamsets*.rpm
           

2、啟動該軟體在el6作業系統,操作指令為:

$ service sdc start
           

3、啟動該軟體在el7作業系統,操作指令為:

$ systemctl start sdc
           

4、啟動之後就可以通過浏覽器檢視了,預設的通路位址為:

Browse to http://<system-ip>:18630/
           

5、UI界面看到之後,就可以通過該密碼進行登入

使用者名和密碼都為:admin

1.5、Docker鏡像(Docker Image)

Docker版本的安裝過程如下所示:

1、可以使用docker的指令進行啟動,指令如下:

$ docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector
           

2、UI界面看到之後,就可以通過該密碼進行登入

    使用者名和密碼都為:admin

3、最後一步進行釋出就可以了,指令如下:

$ docker run --publish 18633:18633 --name edge --rm streamsets/datacollector-edge
           

1.6、源碼

源碼位址為:http://github.com/streamsets

硬體環境要求:

将Data Collector安裝在滿足以下最低要求的機器上。要以叢集執行模式運作管道,叢集中的每個節點都必須滿足最低要求。

元件 最小
作業系統 使用以下作業系統和版本之一::
  • Mac OS X
  • CentOS 6 or 7
  • Red Hat Enterprise Linux 6 or 7
  • Ubuntu 14.04 LTS or 16.04 LTS
CPU核數 2
記憶體 1 GB
硬碟空間 6 GB
檔案大小 32768
Java版本 Oracle Java 8 or OpenJDK 8
浏覽器
  • 使用一下的浏覽器即可:
  • Chrome
  • Firefox
  • Safari

配置打開檔案限制

資料收集器 需要大量的檔案描述符才能在所有階段正常工作。大多數作業系統提供一個配置來限制程序或使用者可以打開的檔案數量。預設值通常小于32768個檔案描述符的Data Collector 要求。

使用以下指令驗證目前使用者的配置限制:

ulimit -n
           

大多數作業系統使用兩種方式配置打開檔案的最大數量 - 軟限制和硬限制。硬限制由系統管理者設定。軟限制可以由使用者設定,但隻能達到硬限制。

增加每個作業系統的打開檔案限制是不同的。請查閱您的作業系統文檔以擷取首選方法。

增加Linux上的限制

要增加Linux上的打開檔案限制,請參閱以下解決方案:如何設定ulimit值。

這個解決方案應該可以在Red Hat Enterprise Linux,CentOS和Ubuntu上運作。但是,請參閱您的作業系統的管理者文檔以擷取首選方法。

增加Mac OS上的限制

您用于增加Mac OS上限的方法可能因每個版本而異。

要增加計算機的限制 - 以便在重新啟動終端并重新啟動計算機後保留限制 - 建立屬性清單檔案。以下步驟适用于Mac OS Yosemite,El Capitan和Sierra:

使用以下指令建立一個名為的屬性清單檔案 limit.maxfiles.plist:

sudo vim /Library/LaunchDaemons/limit.maxfiles.plist
           

将以下内容添加到檔案中,修改 MAXFILES 屬性根據需要。

maxfiles屬性定義了打開的檔案限制。檔案中的第一個值是軟限制。第二個值是硬限制。

例如,在下面 limit.maxfiles.plist檔案,軟限制和硬限制均設定為32,768:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
  <dict>
    <key>Label</key>
    <string>limit.maxfiles</string>
    <key>ProgramArguments</key>
    <array>
      <string>launchctl</string>
      <string>limit</string>
      <string>maxfiles</string>
      <string>32768</string>
      <string>32768</string>
    </array>
    <key>RunAtLoad</key>
    <true/>
    <key>ServiceIPC</key>
    <false/>
  </dict>
</plist>
           

使用以下指令加載新的設定:

sudo launchctl unload -w /Library/LaunchDaemons/limit.maxfiles.plist
sudo launchctl load -w /Library/LaunchDaemons/limit.maxfiles.plist
           

使用以下指令檢查是否修改了系統限制:

launchctl限制maxfiles

使用以下指令來設定會話限制:

ulimit -n 32768
           

注:可以選擇其中的一種方式安裝即可。

2、Streamsets運作平台

Streamsets運作在Linux及Mac OS X 平台中,暫時不支援Windows版本

3、Streamsets的特征

1、通過使用streamsets可以在幾分鐘内建構批處理流程

2、建構穩健的資料流管道

3、智能,自我修複的資料流管道

3.1、拖放連接配接器用于批量和流式源和目标。

3.2、最小的模式規範加速了開發。

3.3、智能傳感器自動檢測和糾正資料漂移檢測。

4、消費資料的輕量級轉換

4.1、在管道(pipeline)中的任何點上轉換資料。

4.2、利用幾十個内置的處理器或設計自己的。

4.3、在需要時觸發自定義代碼。

4.4、識别并處理個人資料/ PII到達。

5、智能監測和錯誤檢測

5.1、通過内置的測量和監測確定持續的資料傳輸。

5.2、精細的度量标準來查明問題。

5.3、設定錯誤情況的觸發器和警報。

5.4、在管道的任何一點進行特别的資料反思。

6、嚴格的資料流操作

6.1、即使面對不斷變化的持續內建和部署。

6.2、性能警報和管道快照可簡化故障排除。

6.3、更新底層系統時零停機。

6.4、在群集中,跨多個雲甚至在邊緣裝置上(使用SDC Edge)部署和管理任何地方。

4、應用場景-常見用例

4.1、用例一:

Apache Kafka 使用StreamSets,您可以将應用程式連接配接到Kafka而無需編寫一行代碼!

4.2、用例二:

Hadoop攝取 StreamSets可以讓您輕松連續地将資料提取到Hadoop和周圍的生态系統中。

4.3、用例三:

雲遷移  将資料遷移到雲服務提供商(包括亞馬遜,微軟和谷歌)。

4.4、用例四:

搜尋啟用  StreamSets使得用任何來源的資料填充選擇的搜尋解決方案變得非常容易。

 有問題聯系QQ:765120845