Spark學習筆記（三）：SparkStreaming實作對檔案夾和socket的監聽對檔案夾的監聽對socket端口的監聽

2023-05-27 16:22:59

SparkStreaming是Spark的一個流式計算架構，它支援對許多資料源進行實時監聽，例如Kafka, Flume, Kinesis, TCP sockets，甚至檔案夾，并實作實時計算的能力。

對檔案夾的監聽

def fileStreaming(): Unit ={
        /**
          * 監聽檔案夾的新增檔案内容
          */
        // 至少要啟動2個線程以上，1個用于監聽，1個用于處理資料
        val conf = new SparkConf().setMaster("local[8]").setAppName("SparkSql")
        val sc = new SparkContext(conf)
        sc.setLogLevel("ERROR")
        // 這裡是每隔3秒進行一次資料處理
        val ssc = new StreamingContext(sc, Seconds(3))
        // 隻會讀取在監聽期間傳入監聽檔案夾的檔案
        // 并且該檔案還必須在開始監聽之後進行修改過
        val lines = ssc.textFileStream("resources/data/SparkStreaming.SparkStreaming/wordCount.txt")
        val words = lines.flatMap(_.split(","))
        val wordCount = words.map(x => (x, 1)).reduceByKey(_ + _)
        wordCount.print()
        ssc.start()
        ssc.awaitTermination()
    }

這裡有些地方是需要注意：

1.SparkContext至少要啟動2個線程以上，1個用于監聽，1個用于處理資料

2.對檔案監聽我個人認為不是很人性化：隻會讀取在監聽期間傳入監聽檔案夾的檔案；并且該檔案還必須在開始監聽之後進行修改過

對socket端口的監聽

首先，我們需要先建立一個scoket服務端口，定時往裡面寫入内容，我們的SparkStreaming才能進行監聽并實時接受資料

import java.io.PrintWriter
import java.net.ServerSocket

import scala.io.Source

/**
  * 建立一個socket服務，間隔一定時間從檔案中随機讀取一行内容
  */
object SocketServer {
    private val rd = new java.util.Random()

    def rdInt(max: Int): Int ={
        rd.nextInt(max)
    }

    def main(args: Array[String]): Unit = {
        val fileName = args(0) // 讀取的檔案路徑
        val port = args(1).toInt // socket端口号
        val interval = args(2).toLong // 讀取檔案内容的時間間隔：毫秒

        val reader = Source.fromFile(fileName)
        val lines = reader.getLines().toList
        reader.close()
        val length = lines.length
        val listener = new ServerSocket(port)
        while (true){ // 一直監聽該socket端口
            val socket = listener.accept()
            new Thread(){
                override def run = {
                    val out = new PrintWriter(socket.getOutputStream, true)
                    while (true){
                        Thread.sleep(interval)
                        val content = lines(rdInt(length))
                        println(content)
                        out.write(content + "\n")
                        out.flush()
                    }
                    socket.close()
                }
            }.start()
        }
    }
}

接下來，就是我們SparkStreaming的監聽代碼

def socketStreaming(): Unit ={
        /**
          * 監聽socket端口的寫入内容
          */
        val conf = new SparkConf().setMaster("local[4]").setAppName("SparkSql")
        val sc = new SparkContext(conf)
        sc.setLogLevel("ERROR")
        // 這裡是每隔3秒進行一次資料處理
        val ssc = new StreamingContext(sc, Seconds(3))
        val lines = ssc.socketTextStream("localhost", 9999, StorageLevel.MEMORY_AND_DISK_SER)
        val words = lines.flatMap(_.split(","))
        val wordCount = words.map(x => (x, 1)).reduceByKey(_ + _)
        wordCount.print()
        ssc.start()
        ssc.awaitTermination()
    }

完整的代碼我已經上傳至GitHub

歡迎關注同名公衆号：“我就算餓死也不做程式員”。

交個朋友，一起交流，一起學習，一起進步。

Spark學習筆記（三）：SparkStreaming實作對檔案夾和socket的監聽對檔案夾的監聽對socket端口的監聽

Spark學習筆記（三）：SparkStreaming實作對檔案夾和socket的監聽對檔案夾的監聽對socket端口的監聽

對檔案夾的監聽

對socket端口的監聽

繼續閱讀

基于udp的聊天室簡單實作

聊天室程式用戶端Linux下select函數實作的聊天伺服器

Socket實作聊天室（二）

[AS/FLEX] Flex AS3與Java的Socket通信 [AS/FLEX] Flex AS3與Java的Socket通信

Socket套接字類 AS3

穩紮穩打Silverlight(53) - 4.0通信之對WCF NetTcpBinding的支援, 在Socket通信中通過HTTP檢索政策檔案, HTTP請求中的ClientHttp和Browse

Java網絡程式設計（30）：定制accept方法

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

linux網絡程式設計----發送與接收檔案

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結