使用Spark SQL 建構流式處理程式

2021-11-07 12:02:10

今天介紹利用 streamingpro 建構流式(spark streaming)計算程式

下載下傳streamingpro

<a href="https://github.com/allwefantasy/streamingpro">readme中有下載下傳位址</a>

我們假設您将檔案放在了/tmp目錄下。

執行個體一，nginx日志解析後存儲到es

測試樣例, 模拟資料，并且單機跑起來

假設你使用的是第二個配置檔案，名字叫做test.json，并且放在了/tmp目錄下。

local模式：

通路

http://127.0.0.1:4040

可進入spark ui

叢集模式：

cd $spark_home

./bin/spark-submit --class streaming.core.streamingapp \

--master yarn-cluster \

--name test \

/tmp/streamingpro-0.2.1-snapshot-dev-1.6.1.jar \

-streaming.name test \

-streaming.job.file.path hdfs://cluster/tmp/test.json

這裡需要注意的是，配置檔案并蓄放到hdfs上，并且需要帶上hdfs字首。這是一個标準的spark 批流式處理程式

文／祝威廉（簡書作者）

原文連結：http://www.jianshu.com/p/d10edd6c7cf9

著作權歸作者所有，轉載請聯系作者獲得授權，并标注“簡書作者”。

繼續閱讀