Spark之Scala語言常見應用舉例

作為一個初學者，初次學習Spark，分享一下自己的心得。

在學習Spark程式設計時，首先得準備編譯環境，确定程式設計語言，本人用的是Scala語言，IntelliJ IDEA編譯環境，同時得準備四個包，分别是：spark-assembly-1.3.1-hd-2.6.0.jar、scala-compiler.jar、scala-library.jar、scala-reflect.jar。将這四個包導入，才能開始自己的Scala程式設計之旅。

由于Hadoop環境沒有搭建好，是以在練習Scala程式設計的時候，就不能再Hadoop之上讀取HDFS的資料，不過不礙事，為了練習程式設計，我們可以讀取本地的txt檔案，然後将結果儲存到txt中，這樣不僅能感受到Spark RDD的強大，也能達到我們練習程式設計的目的。下來主要是用執行個體說明一下Spark RDD常用的一下操作。

首先我們得配置SparkConf()，一般是讀取HDFS上的檔案，但是這裡讀取本地txt檔案，配置SparkConf()如下：

<span style="font-size:18px;"><span style="font-size:18px;">conf=new SparkConf().setAppName("Test").setMaster("local[4]")</span></span>

解釋一下：Local[N]：本地模式，使用 N 個線程。

下面這個程式是使用count（）統計行數

<span style="font-size:18px;">object yb {
  /*
   統計行内容出現的次數，即相同行一共出現多少次
   */
  def main(args: Array[String]): Unit={
    val conf=new SparkConf().setAppName("Test").setMaster("local[4]")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("E:/Spark/天池大資料/data_format1/yb.txt")
    val countx=lines.count()//統計行數
    println(countx)//輸出： 10485750 
  }
}</span>

統計詞頻并按照詞頻排序：

<span style="font-size:18px;">object yb {
  def main(args: Array[String]): Unit={

    val conf=new SparkConf().setAppName("Test").setMaster("local[4]")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("E:/Spark/天池大資料/data_format1/100W.txt")
    /*
    sortByKey參數有二個。1、true（升序），否則反之。2、辨別分片數（分區數）
    flatMap相當于擷取一個朋友對象的清單。
     */
    val worldcounts=lines.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey((a,b) => a+b).map{case (key,value)=>(value,key)}.sortByKey(true,1)
    worldcounts.foreach(println)
  }
}</span>

Map()和flatMap()差別：

<span style="font-size:18px;"><span style="font-size:18px;">object yb{
   def main (args: Array[String]) {
     val m=List(List(1,2),List(3,4))
     println(m.map(x=>x))
     println(m)
     val x=m.flatten
     println(x)
     println(m.flatMap(x =>x))
  }</span></span>

由上面程式可得flatMap是由Map和flatten綜合而來，同時也可以發現flatMap最終都會輸出一串的序列，而Map輸出是多個集合。

union()用法：

<span style="font-size:18px;"><span style="font-size:18px;">object yb{
  def main(args: Array[String]) {
    val m1=List(List(1,2),List(3,4))
    val m2=List(List(1,2),List(3,4))
    val unionx=m1.union(m2)//把兩個資料集聯合起來
    println(unionx)
    val mx1=List(1,2)
    val mx2=List(3,4)
    val unionxx=mx1.union(mx2)//把兩個資料集聯合起來
    println(unionxx)
  }
}</span></span>

笛卡爾積cartesian()用法：

<span style="font-size:18px;"><span style="font-size:18px;">object yb{
  def main(args: Array[String]) {
    val conf=new SparkConf().setAppName("Test").setMaster("local[4]")
    val sc = new SparkContext(conf)
    val data1=sc.parallelize(List(1,2,3))//并行化，因為笛卡爾積是操作在RDD上的，是以必須是RDD的資料。
    val data2=sc.parallelize(List(4,5,6))
    data1.cartesian(data2).foreach(println)
  }
}</span></span>

groupByKey()和 reduceByKey()差別：

<span style="font-size:18px;"><span style="font-size:18px;">object yb {
  def main(args: Array[String]){
    val conf=new SparkConf().setAppName("Test").setMaster("local[4]")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("E:/Spark/天池大資料/data_format1/100W.txt")
    /*
    sortByKey參數有二個。1、true（升序），否則反之。2、辨別分片數（分區數）
     */
    val worldcounts=lines.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey((a,b) => a+b).map{case (key,value)=>(value,key)}.sortByKey(false,1)//按照從大到小的順序排序
    val topK=worldcounts.top(10)
    topK.foreach(println)//輸出排名前十的詞頻
   
  }
}</span></span>

groupByKey不在本地merge統一在主節點merge

reduceByKey在本地merge然後在到主節點merge

reduce ()用法：

<span style="font-size:18px;"><span style="font-size:18px;">object yb{
  def main(args: Array[String]) {
    val data=List(1,2,3,4)
   val sum=data.reduce((x,y)=>x+y)
    println(sum)//輸出：10
  }
}//reduce将RDD中元素兩兩傳遞給輸入函數，同時産生一個新的值，新産生的值與RDD中下一個元素再被傳遞給輸入函數直到最後隻有一個值為止
    其本質相當于一個滿二叉樹的左右孩子相加賦給根節點的過程。</span></span>

Spark之Scala語言常見應用舉例

繼續閱讀

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

Scala中的match(模式比對)

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

《快學Scala》——基礎

《快學scala》第13章練習答案

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

坐标系統和投影變換在桌面産品中的應用

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method