环境
win 7
jdk 1.7.0_79 (Oracle Corporation)
scala version 2.10.5
spark 1.6.1
详细配置:
Spark Properties
任务
完成对如下日志的查询:
思路:
1.利用正则表达式提取出日志特征,然后map在分片后的RDD上。
2.执行reducebykey,merge相同的Stats

分析下执行过程:
加载SLF4J
初始化sparkcontext上下文
SecurityManager
‘sparkDriver’ on port 36010
Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:36023]
MapOutputTracker
BlockManagerMaster
DiskBlockManager: Created local directory at C:\Users\hp\AppData\Local\Temp\blockmgr-84667505-0018-439b-9627-
OutputCommitCoordinator
Executor
org.apache.spark.network.netty.NettyBlockTransferService
这几个是几个主要过程。
开始执行job
结束
总结
java的代码实现spark API虽然代码冗余很多,但是很清楚显示了spark的执行过程,先比于scala的代码,较为清楚,而且java的代码和其他的项目结合效果可能好些。