天天看點

寒假學習進度

今天開始學習sqark,主要參考學習的是尚矽谷的sqark教程。

Spark 核心子產品

寒假學習進度

 1.在idea中添加scala

因為在idea中添加scala插件下載下傳速度過慢,是以用離線添加

在idea官網插件庫中下載下傳scala  :https://plugins.jetbrains.com/plugin/1347-scala

寒假學習進度

在plugins中添加scala插件

寒假學習進度

建立maven工程

添加下載下傳scala2.12.11

寒假學習進度
寒假學習進度

添加依賴:

 建立一個scala類測試

寒假學習進度

用scala架構完成對文本中的單詞統計

測試資料1.txt

寒假學習進度

2.txt

寒假學習進度

代碼:package com.chenghaixiang.core.wc

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

object spark01_wordcount {

def main(args: Array[String]): Unit = {

val sparkConf = new SparkConf().setMaster("local").setAppName("wordcount")

val sc : SparkContext = new SparkContext(sparkConf)

val lines: RDD[String]=sc.textFile("data")

val words: RDD[String] = lines.flatMap(_.split(" "))

val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)

val wordtp=wordGroup.map{

case (word, list)=>{

(word,list.size)

}

val tuples: Array[(String, Int)] = wordtp.collect()

tuples.foreach(println)

sc.stop()

寒假學習進度