天天看点

使用eclipse运行和调试nutch1.4

起初参照官网http://wiki.apache.org/nutch/RunNutchInEclipse,有些文字对java不熟悉的人来说根本看不明白,在往上搜索到了一篇文章http://www.douban.com/note/193721760/,里边有个需要翻墙的地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,参照这个地址基本可以在eclipse下编译通过大部分nutch插件,但要正确运行,还是要经历几个关键问题的解决:

1:在eclipse中运行时会碰到以下问题:

Exception in thread "main" java.io.IOException: Job failed!

    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

    at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)

    at org.apache.nutch.crawl.Crawl.run(Crawl.java:138)

    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

这个可以从hadoop log中看到失败原因是插件没有编译通过,去看插件中错误,无非是某些jar包找不到,添加以下几个jar包到工程中可以解决:

build/plugins/lib-nekohtml/nekohtml-0.9.5.jar

build/plugins/parse-html/tagsoup-1.2.jar

rome.*.jar(从 http://mirrors.ibiblio.org/pub/mirrors/maven2/搜索最新包,搜索关键字是rome)

添加这几个包之后,重新再编译一次,红色的错误都消失了,这个时候在eclipse中再运行时候,可以跑到最后了,但还是有异常,原因是以前crawl没有正常结束,留了些垃圾目录在哪儿,看谁报异常删除掉即可。

再跑,一切正常了,调试也没啥问题了。

2:如果和solr结合使用,运行参数请设置为urls -solr http://localhost:8080/solr -depth 3 -topN 50

继续阅读