Nutch-2.2.1学习之七Nutch与Solr的集成

Nutch以开箱的方式支持Solr，这极大的简化了Nutch与Solr的集成。Nutch也移除了遗留的对Tomcat运行旧的Nutch web应用程序和Apache Lucene索引的依赖。Nutch1.x和2.x关于Solr的区别在于1.x版本可以选择是否使用Solr索引，这需要一步一步地进行爬取工作，而2.x则提供了更为简洁的方式——crawl脚本，直接将爬取成功的页面与Solr集成在一起。当然通过阅读crawl脚本也可以将2.x中的一步到位方式分解为若干步骤，并且选择是否由Solr建立索引。在学习如何将Nutch与Solr结合在一起使用之前，先看一下Solr官网的介绍。

Solr是从apache的Lucene项目发展而来的流行的，非常快速的开源企业级搜索平台。主要特征包括强大的全文检索，分面搜索，近乎实时索引，动态集群，与数据库的集成，丰富的文档处理（比如word、PDF），还有地理空间搜索。Solr是高可靠、可扩展和容错的，提供分布式索引，复制和负载均衡查询，自动化的故障转移和恢复，集中管理等。Solr强化了很多世界上最大网站的搜索和导航特性。

Solr是用Java开发的，在一个诸如Jetty的servlet容器中以单机模式运行全文搜索服务。Solr使用Lucene的Java搜索库作为全文索引和搜索的核心，通过使用REST-like HTTP/XML andJSON APIs，使得几乎任何编程语言都可以很容易的使用Solr。使用者可以通过基于HTTP协议的XML, JSON,CSV 或者二进制将文档放在Solr中（称为索引），使用HTTP的GET方法查询并且收到XML,JSON, CSV 或者二进制结果。

根据官网的介绍，可以发现Solr提供了强大的关于索引的功能，并且几乎支持所有的编程语言，而不仅仅局限于JAVA。

现在开始将Nutch与Solr结合在一起。首先从官网下载Solr版本4.5.1版本，地址为http://lucene.apache.org/solr/，然后将下载的solr-4.5.1.tgz解压到相应的目录中，该目录在稍后将使用${SOLR_HOME}引用。进入${APACHE_SOLR_HOME}/example，执行java-jar start.jar，等到solr启动完毕后，在浏览器中输入http://localhost:8983/solr/#/，进入如下图片所示的页面：

Nutch-2.2.1学习之七Nutch与Solr的集成

在该页面中可以发现solr的版本信息、系统信息、JVM信息等。点击左侧导航栏中的下拉选择框，选择collection1，进入下图所示的页面。在该页面中又出现了一些链接，可以点击进行相应的操作，比如进行查询。

Nutch-2.2.1学习之七Nutch与Solr的集成

在简单介绍了Solr的启动以及页面后，现在来看看如何修改Solr的配置文件使得Nutch爬取的网页可以被Solr索引查询。首先备份${SOLR_HOME}/example/solr/conf/schema.xm文件，然后将Nutch目录中conf目录下的schema-solr4.xml复制到${SOLR_HOME}/example/solr/conf/中，并且重命名为schema.xm，若不修改则在启动Solr会报找不到schema.xm的错误而无法启动Solr。做完这些修改后运行java -jar start.jar 重新启动Solr，然后运行bin/crawl urls sina http://localhost: 8983/solr 2进行网页的爬取并在Solr上建立索引。在控制台中可以发现，当进行dedup作业时出现问题，该作业用于删除多余的副本确保被索引的urls的唯一性。如果有人也曾遇到过类似的问题，并成功的解决了，还请多多指教。该问题是在建立索引完成之后出现的，不会特别严重的影响查看索引结果，暂时略过，后续找到解决办法再更新文章。

SOLR dedup -> http://localhost:8983/solr
/home/hadoop/nutch-2.2.1/runtime/deploy/conf:/usr/java/jdk1.6.0_32/lib/tools.jar
13/12/20 20:23:28 INFO solr.SolrDeleteDuplicates: SolrDeleteDuplicates: starting...
13/12/20 20:23:28 INFO solr.SolrDeleteDuplicates: SolrDeleteDuplicates: Solr url: http://localhost:8983/solr
13/12/20 20:23:37 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
13/12/20 20:23:47 INFO mapred.JobClient: Running job: job_201312201956_0007
13/12/20 20:23:48 INFO mapred.JobClient:  map 0% reduce 0%
13/12/20 20:24:22 INFO mapred.JobClient: Task Id : attempt_201312201956_0007_m_000000_0, Status : FAILED
java.lang.RuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormat
	at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:857)
	at org.apache.hadoop.mapreduce.JobContext.getInputFormatClass(JobContext.java:187)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:722)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:364)
	at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:396)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
	at org.apache.hadoop.mapred.Child.main(Child.java:249)
Caused by: java.lang.ClassNotFoundException: org.apache.nutch.indexer.solr.SolrDeleteDuplicates$SolrInputFormat
	at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
	at java.security.AccessController.doPrivileged(Native Method)
	at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
	at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
	at java.lang.Class.forName0(Native Method)
	at java.lang.Class.forName(Class.java:247)
	at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:810)
	at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:855)
	... 8 more

作业完成后进入Solr的管理页面，现在可以查询已经爬取到的网页了。在上图中点击query链接，出现下图所示的页面，在该页面中不做任何修改，点击下方的查询按钮，以JSON方式显示索引的内容。

Nutch-2.2.1学习之七Nutch与Solr的集成

可以修改q中的参数查询包含特定内容的网页，也可以选择wt中的选项定制以JSON、XML、CSV等格式显示网页内容，是可以在fl中以逗号分隔的方式定制需要显示哪些字段。在q中设置title:hadoop查询title中包含hadoop的网页，执行结果如下图所示：

Nutch-2.2.1学习之七Nutch与Solr的集成

上面只介绍了Solr的相当简单的一部分功能，更多更强大的功能还需要进一步学习探索，并且solrdedup作业失败的问题也需要继续研究其根源并解决。

补充，solrdedup失败的解决办法可以通过在SolrDeleteDuplicates中的Job job = new Job(getConf(), "solrdedup");后添加下面的代码解决：

job.setJarByClass(SolrDeleteDuplicates.class);

Nutch-2.2.1学习之七Nutch与Solr的集成

继续阅读

hdu 5487 Difference of Languages BFS Difference of Languages

oracle 中不使用已有的索引解决办法

celery分布式

【Python】Qt国际化ts文件转excel文件（xml转excel）

对first_name创建唯一索引uniq_idx_firstname问题描述Sql语句

Unable to resolve dependency for ':app@debug/compileClasspath': Could not resolve com.android.suppo

Java网络编程-Socket编程初涉七（UDP协议，简易提供-搜索服务）

HDU 2533 N皇后问题（搜索）

记一次因MySQL编码问题导致的慢查询排查

如何下载blob:https://www.bilibili.com/的视频

【Solr现网问题】索引文档数量超限

2023爬虫学习笔记 -- 多线程操作

BZOJ3643 Phi的反函数（数论+搜索）

Boss直聘Python爬虫实战

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch