Spark实践-日志查询

2016-04-28 23:50:00

环境

win 7

jdk 1.7.0_79 (Oracle Corporation)

scala version 2.10.5

spark 1.6.1

详细配置：

Spark Properties

任务

完成对如下日志的查询：

思路：

1.利用正则表达式提取出日志特征，然后map在分片后的RDD上。

2.执行reducebykey,merge相同的Stats

分析下执行过程：

加载SLF4J

初始化sparkcontext上下文

SecurityManager

‘sparkDriver’ on port 36010

Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:36023]

MapOutputTracker

BlockManagerMaster

DiskBlockManager: Created local directory at C:\Users\hp\AppData\Local\Temp\blockmgr-84667505-0018-439b-9627-

OutputCommitCoordinator

Executor

org.apache.spark.network.netty.NettyBlockTransferService

这几个是几个主要过程。

开始执行job

结束

总结

java的代码实现spark API虽然代码冗余很多，但是很清楚显示了spark的执行过程，先比于scala的代码，较为清楚，而且java的代码和其他的项目结合效果可能好些。

继续阅读