使用eclipse運作和調試nutch1.4

2023-06-11 14:22:29

起初參照官網http://wiki.apache.org/nutch/RunNutchInEclipse，有些文字對java不熟悉的人來說根本看不明白，在往上搜尋到了一篇文章http://www.douban.com/note/193721760/，裡邊有個需要翻牆的位址：http://zettadata.blogspot.com/2011/12/eclipsenutch.html，參照這個位址基本可以在eclipse下編譯通過大部分nutch插件，但要正确運作，還是要經曆幾個關鍵問題的解決：

1：在eclipse中運作時會碰到以下問題：

Exception in thread "main" java.io.IOException: Job failed!

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)

at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209)

at org.apache.nutch.crawl.Crawl.run(Crawl.java:138)

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

這個可以從hadoop log中看到失敗原因是插件沒有編譯通過，去看插件中錯誤，無非是某些jar包找不到，添加以下幾個jar包到工程中可以解決：

build/plugins/lib-nekohtml/nekohtml-0.9.5.jar

build/plugins/parse-html/tagsoup-1.2.jar

rome.*.jar(從 http://mirrors.ibiblio.org/pub/mirrors/maven2/搜尋最新包，搜尋關鍵字是rome)

添加這幾個包之後，重新再編譯一次，紅色的錯誤都消失了，這個時候在eclipse中再運作時候，可以跑到最後了，但還是有異常，原因是以前crawl沒有正常結束，留了些垃圾目錄在哪兒，看誰報異常删除掉即可。

再跑，一切正常了，調試也沒啥問題了。

2：如果和solr結合使用，運作參數請設定為urls -solr http://localhost:8080/solr -depth 3 -topN 50

使用eclipse運作和調試nutch1.4

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

與專家面對面：Android開發入門問與答

hadoop 用MR實作join操作

什麼是BNF範式

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

C#多線程——前台線程和背景線程

Hibernate使用Hibernate的“3個準備，7個步驟”Hibernate API簡介操作實體對象對象識别

java中，字元串中的函數的替換方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch

用mybatis的generator插件在項目中自動生成dao及entity

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結