使用eclipse运行和调试nutch1.4

2023-06-11 14:22:29

起初参照官网http://wiki.apache.org/nutch/RunNutchInEclipse，有些文字对java不熟悉的人来说根本看不明白，在往上搜索到了一篇文章http://www.douban.com/note/193721760/，里边有个需要翻墙的地址：http://zettadata.blogspot.com/2011/12/eclipsenutch.html，参照这个地址基本可以在eclipse下编译通过大部分nutch插件，但要正确运行，还是要经历几个关键问题的解决：

1：在eclipse中运行时会碰到以下问题：

Exception in thread "main" java.io.IOException: Job failed!

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)

at org.apache.nutch.crawl.Crawl.run(Crawl.java:138)

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

这个可以从hadoop log中看到失败原因是插件没有编译通过，去看插件中错误，无非是某些jar包找不到，添加以下几个jar包到工程中可以解决：

build/plugins/lib-nekohtml/nekohtml-0.9.5.jar

build/plugins/parse-html/tagsoup-1.2.jar

rome.*.jar(从 http://mirrors.ibiblio.org/pub/mirrors/maven2/搜索最新包，搜索关键字是rome)

添加这几个包之后，重新再编译一次，红色的错误都消失了，这个时候在eclipse中再运行时候，可以跑到最后了，但还是有异常，原因是以前crawl没有正常结束，留了些垃圾目录在哪儿，看谁报异常删除掉即可。

再跑，一切正常了，调试也没啥问题了。

2：如果和solr结合使用，运行参数请设置为urls -solr http://localhost:8080/solr -depth 3 -topN 50

使用eclipse运行和调试nutch1.4

继续阅读

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

与专家面对面：Android开发入门问与答

hadoop 用MR实现join操作

什么是BNF范式

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

C#多线程——前台线程和后台线程

Hibernate使用Hibernate的“3个准备，7个步骤”Hibernate API简介操作实体对象对象识别

java中，字符串中的函数的替换方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch

用mybatis的generator插件在项目中自动生成dao及entity

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结