Spark用Scala做WordCount案例

2022-07-01 17:20:39

1.項目結構

2.單詞文檔（data/words）

Kobe James Jordan Pual
Kobe Kobe James Jordan Jordan
Kobe James Jordan
Kobe Pual Pual

3.導入Spark依賴

<dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.3.1</version>
        </dependency>
    </dependencies>

4.源碼計算（WordCountByScala）

import org.apache.spark.{SparkConf, SparkContext}

/**
 * @Author yqq
 * @Date 2021/12/06 20:09
 * @Version 1.0
 */
object WordCountByScala {
   /**
     * SparkConf 是Spark的配置，可以設定：
     *   1).Spark運作模式
     *     local:本地運作模式，多用于本地使用eclipse | IDEA 測試代碼。
     *     yarn: hadoop生态圈中的資源排程架構，Spark可以基于Yarn進行排程資源
     *     standalone:Spark自帶的資源排程架構，支援分布式搭建，spark可以基于自帶的資源排程架構來進行排程。
     *     mesos:資源排程架構。
     *     k8s：虛拟化的方式運作。
     *
     *   2).可以設定在Spark WEBUI中展示的Spark Application的名稱
     *   3).可以設定運作的資源情況
     *       主要的資源包含core 和記憶體
     */
  def main(args: Array[String]): Unit = {
    //初始化spark的上下文
     /**
     * SparkContext 是通往Spark叢集的唯一通道
     */
    val context = new SparkContext(
      new SparkConf()
        .setAppName("scala-wc")
        .setMaster("local")
    )
    //讀取資料
    val value = context.textFile("data/words")
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)

    value.foreach(println)
  }
}

Spark用Scala做WordCount案例

1.項目結構

2.單詞文檔（data/words）

3.導入Spark依賴

4.源碼計算（WordCountByScala）

繼續閱讀

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

2021-09-30一碼在手安全無憂從農田到餐桌，全流程追溯四大子產品，助力客戶實作品牌化

《快學Scala》——基礎

《快學scala》第13章練習答案

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method