天天看點

使用Spark SQL 建構流式處理程式

今天介紹利用 streamingpro 建構流式(spark streaming)計算程式

下載下傳streamingpro

<a href="https://github.com/allwefantasy/streamingpro">readme中有下載下傳位址</a>

我們假設您将檔案放在了/tmp目錄下。

執行個體一,nginx日志解析後存儲到es

<a href="https://gist.github.com/allwefantasy/5dc8f994499ee3053623a3023fae79de">gist</a>

測試樣例, 模拟資料,并且單機跑起來

<a href="https://gist.github.com/allwefantasy/53afb86531e660fad4681be507b1a175">gist</a>

假設你使用的是第二個配置檔案,名字叫做test.json,并且放在了/tmp目錄下。

local模式:

通路

http://127.0.0.1:4040

可進入spark ui

叢集模式:

cd  $spark_home

./bin/spark-submit   --class streaming.core.streamingapp \

--master yarn-cluster \

--name test \

/tmp/streamingpro-0.2.1-snapshot-dev-1.6.1.jar    \

-streaming.name test    \

-streaming.job.file.path hdfs://cluster/tmp/test.json

這裡需要注意的是,配置檔案并蓄放到hdfs上,并且需要帶上hdfs字首。這是一個标準的spark 批流式處理程式

文/祝威廉(簡書作者)

原文連結:http://www.jianshu.com/p/d10edd6c7cf9

著作權歸作者所有,轉載請聯系作者獲得授權,并标注“簡書作者”。

繼續閱讀