天天看點

使用eclipse運作和調試nutch1.4

起初參照官網http://wiki.apache.org/nutch/RunNutchInEclipse,有些文字對java不熟悉的人來說根本看不明白,在往上搜尋到了一篇文章http://www.douban.com/note/193721760/,裡邊有個需要翻牆的位址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html,參照這個位址基本可以在eclipse下編譯通過大部分nutch插件,但要正确運作,還是要經曆幾個關鍵問題的解決:

1:在eclipse中運作時會碰到以下問題:

Exception in thread "main" java.io.IOException: Job failed!

    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

    at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)

    at org.apache.nutch.crawl.Crawl.run(Crawl.java:138)

    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

    at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

這個可以從hadoop log中看到失敗原因是插件沒有編譯通過,去看插件中錯誤,無非是某些jar包找不到,添加以下幾個jar包到工程中可以解決:

build/plugins/lib-nekohtml/nekohtml-0.9.5.jar

build/plugins/parse-html/tagsoup-1.2.jar

rome.*.jar(從 http://mirrors.ibiblio.org/pub/mirrors/maven2/搜尋最新包,搜尋關鍵字是rome)

添加這幾個包之後,重新再編譯一次,紅色的錯誤都消失了,這個時候在eclipse中再運作時候,可以跑到最後了,但還是有異常,原因是以前crawl沒有正常結束,留了些垃圾目錄在哪兒,看誰報異常删除掉即可。

再跑,一切正常了,調試也沒啥問題了。

2:如果和solr結合使用,運作參數請設定為urls -solr http://localhost:8080/solr -depth 3 -topN 50

繼續閱讀