1、安裝IDEA
下載下傳位址:https://www.jetbrains.com/idea/download/#section=windows

2、IDEA中Scala插件的安裝
安裝好IDEA之後,在Setting中添加插件Scala,點選Install即可
還得下載下傳scala包,以後建立工程要用到:
我用的是scala-2.11.12.zip,連結:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.zip
個人建議把此連結複制,然後迅雷裡打開進行下載下傳,會快一點
3、下載下傳幾個jar包
ps.我習慣把這些包放到IDEA的plugin目錄下,友善以後好添加
安利這個寶藏網址:https://mvnrepository.com/
下面是需要下載下傳的檔案。
第零個:hadoop-common-3.1.2.jar
網址:https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-common/3.1.2/
第一個:spark-core_2.11-2.4.4.jar
網址:https://repo1.maven.org/maven2/org/apache/spark/spark-core_2.11/2.4.4/
第二個:jackson-annotations-2.9.10.jar
網址:https://repo1.maven.org/maven2/com/fasterxml/jackson/core/jackson-annotations/2.9.10/
第三個:spark-network-common_2.11-2.4.4.jar
網址:https://repo1.maven.org/maven2/org/apache/spark/spark-network-common_2.12/2.4.4/
第四個:commons-lang3-3.9.jar
網址:https://repo1.maven.org/maven2/org/apache/commons/commons-lang3/3.9/
第五個:spark-unsafe_2.11-2.4.4.jar
網址:https://repo1.maven.org/maven2/org/apache/spark/spark-unsafe_2.12/2.4.4/
第六個:slf4j-api-1.7.29.jar
網址:https://repo1.maven.org/maven2/org/slf4j/slf4j-api/1.7.29/
第七個:slf4j-nop-1.7.29.jar
網址:https://repo1.maven.org/maven2/org/slf4j/slf4j-nop/1.7.29/
安裝slf4j-nop-1.7.29.jar的原因是因為:如果不安裝就會報錯。。。
4、建立項目
New =>Project然後如圖操作
前提是你下載下傳了Scala插件,步驟二
我的工程名其實是wordcount,這個是示範用的
代碼放這裡:
package aa.bb
import org.apache.spark.{SparkConf, SparkContext}
object cc {
def main(args:Array[String]):Unit={
val conf=new SparkConf().setAppName("wordcount").setMaster("local")
val sc = new SparkContext(conf)
val input=sc.textFile("/input/ceshi.txt")
val count = input.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey((x,y)=>x+y)
count.saveAsTextFile("/output")
}
}
5、添加庫(舉例一個)
例子隻添加了spark-core的jar包,其他的請自行添加,有手就行
6、build詞頻統計jar包
Build 成功後,将 D:\IntellijIDEA\mywordcount\out\artifacts\mywordcount_jar 目錄下的 mywordcount.jar 包拷貝到虛拟機裡。
7、虛拟機裡的操作
先把jar包和測試的文本檔案準備好,如果工程名和我不一樣的可能jar包名字不一樣
進入hadoop/sbin目錄下 通過start-all.sh啟動hadoop
通過jps指令檢視是否正常啟動
然後就是一個坑點!另開啟一個終端,把hadoop/etc下的core-site.xml檔案中添加的内容注釋掉 (注意不要删掉configuration标簽)
在hadoop/bin目錄下檢視hdfs檔案目錄,并沒有input和output
建立input檔案夾
把ceshi.txt放進input檔案夾中,看看是否放進去了
進入spark目錄下 ,送出詞頻統計wordcount.jar包
再傳回hadoop/bin下,檢視hdfs檔案目錄發現出現了輸出檔案夾
最後就檢視結果即可,大功告成!
記得以後正常用hadoop的話,要把那個配置檔案裡注釋的内容給恢複回來喔~