今天介紹利用 streamingpro 建構流式(spark streaming)計算程式
下載下傳streamingpro
<a href="https://github.com/allwefantasy/streamingpro">readme中有下載下傳位址</a>
我們假設您将檔案放在了/tmp目錄下。
執行個體一,nginx日志解析後存儲到es
<a href="https://gist.github.com/allwefantasy/5dc8f994499ee3053623a3023fae79de">gist</a>
測試樣例, 模拟資料,并且單機跑起來
<a href="https://gist.github.com/allwefantasy/53afb86531e660fad4681be507b1a175">gist</a>
假設你使用的是第二個配置檔案,名字叫做test.json,并且放在了/tmp目錄下。
local模式:
通路
http://127.0.0.1:4040
可進入spark ui
叢集模式:
cd $spark_home
./bin/spark-submit --class streaming.core.streamingapp \
--master yarn-cluster \
--name test \
/tmp/streamingpro-0.2.1-snapshot-dev-1.6.1.jar \
-streaming.name test \
-streaming.job.file.path hdfs://cluster/tmp/test.json
這裡需要注意的是,配置檔案并蓄放到hdfs上,并且需要帶上hdfs字首。這是一個标準的spark 批流式處理程式
文/祝威廉(簡書作者)
原文連結:http://www.jianshu.com/p/d10edd6c7cf9
著作權歸作者所有,轉載請聯系作者獲得授權,并标注“簡書作者”。