今天開始學習sqark,主要參考學習的是尚矽谷的sqark教程。
Spark 核心子產品

1.在idea中添加scala
因為在idea中添加scala插件下載下傳速度過慢,是以用離線添加
在idea官網插件庫中下載下傳scala :https://plugins.jetbrains.com/plugin/1347-scala
在plugins中添加scala插件
建立maven工程
添加下載下傳scala2.12.11
添加依賴:
建立一個scala類測試
用scala架構完成對文本中的單詞統計
測試資料1.txt
2.txt
代碼:package com.chenghaixiang.core.wc
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
object spark01_wordcount {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc : SparkContext = new SparkContext(sparkConf)
val lines: RDD[String]=sc.textFile("data")
val words: RDD[String] = lines.flatMap(_.split(" "))
val wordGroup: RDD[(String, Iterable[String])] = words.groupBy(word => word)
val wordtp=wordGroup.map{
case (word, list)=>{
(word,list.size)
}
val tuples: Array[(String, Int)] = wordtp.collect()
tuples.foreach(println)
sc.stop()