基于spark的流式数据处理—SparkStreaming开发demo—文件流

2023-05-27 16:59:07

概述

本文主要完成一个spark streaming的文件流demo，如果是编写一个独立的Spark Streaming程序，而不是在spark-shell中运行，则需要通过如下方式创建StreamingContext对象：

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
// 创建StreamingContext对象
val conf = new SparkConf().setAppName("TestDStream").setMaster("local[2]")
val ssc = new StreamingContext(conf, Seconds(1))

文件流

在spark-shell中创建文件流，我这里的创建脚本如下：

cd /opt/IdeaProjects/
mkdir streaming
mkdir streaming/logfile
cd streaming/logfile/

运行完之后，记住这个文件路径：

/opt/IdeaProjects/streaming/logfile

创建文件流监听代码：

package sparkStreaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * @Author: Garrett Wang
 * @Description: 测试spark streaming的文件输入流测试
 * @Date:Create：in 2019/12/25 17:04
 * @Modified By：
 * @Parameters
 */
object LzSparkStreamingFileInput {

  def main(args: Array[String]): Unit = {

    // 创建StreamingContext对象
    val conf = new SparkConf().setAppName("TestDStream").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(1))

    // 创建文件流，这里的文件路径切记，如果是本地文件已定是三个斜杠，当然也可以hdfs文件
    val lines = ssc.textFileStream("file:///opt/IdeaProjects/streaming/logfile")
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()

    // 执行这一步之后，程序就开始自动进入循环监听状态
    ssc.start()
    // 当出现异常时退出
    ssc.awaitTermination()

  }

}

在刚才的目录下创建一个文件，并编辑内容，如下所示：

vim log1.txt

内容如下：

Hello，my name is Garrett Wang
Hello，my name is Garrett Wang

运行上面代码启动流计算，运行命令如下：

spark2-submit --class sparkStreaming.LzSparkStreamingFileInput /opt/IdeaProjects/LzScalaSparkTest/target/scala-2.11/lzscalasparktest_2.11-0.3.jar

运行结果如下，每秒钟都会又一次刷新：

基于spark的流式数据处理—SparkStreaming开发demo—文件流

在监听的文件路径下面再创建一个文件，log2.txt，运行如下命令：

vim log2.txt

内容就用上述代码内容：

package sparkStreaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * @Author: Garrett Wang
 * @Description: 测试spark streaming的文件输入流测试
 * @Date:Create：in 2019/12/25 17:04
 * @Modified By：
 * @Parameters
 */
object LzSparkStreamingFileInput {

  def main(args: Array[String]): Unit = {

    // 创建StreamingContext对象
    val conf = new SparkConf().setAppName("TestDStream").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(1))

    // 创建文件流，这里的文件路径切记，如果是本地文件已定是三个斜杠，当然也可以hdfs文件
    val lines = ssc.textFileStream("file:///opt/IdeaProjects/streaming/logfile")
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()

    // 执行这一步之后，程序就开始自动进入循环监听状态
    ssc.start()
    // 当出现异常时退出
    ssc.awaitTermination()

  }

}

输出结果如下：

基于spark的流式数据处理—SparkStreaming开发demo—文件流

基于spark的流式数据处理—SparkStreaming开发demo—文件流

概述

文件流

继续阅读

spark streaming WordCount实例演示

[Flink基础]--什么是流处理？

[Flink基础]-- 一致性的3个级别

【Java】粗略统计txt文本中单词的个数

流------I/O、字节流、字符流、I/O异常处理、BIO,NIO,AIOIO概述字节流字符流IO异常的处理BIO,NIO,AIO 有什么区别?

中国移动运营分析实时监控平台之SparkStreaming实时数据分析并将最后结果存储到redis中业务概况

Spark权威指南(中文版)----第20章流处理基础

Spark权威指南(中文版)----第21章 Structured Streaming基础请在公众号中阅读本章剩下的内容。

Flink时间【事件时间、摄取时间、处理时间】与水印概述

Flink Word Count Stream Demo

Flink 助力美团数仓增量生产的应用实践

Java开发笔记（七十二）Java8新增的流式处理1、获得容器的流对象2、设置流的各项筛选和加工指令3、规划处理结果的展示形式

SparkStreaming整合Redis

说一说TS码流里面的PCR

Spark的笔记

Kafka Java客户端Stream API