天天看點

全文檢索技術-solr

一、需求分析

1.實作方法

在一些大型門戶網站、電子商務網站等都需要站内搜尋功能,使用傳統的資料庫查詢方式實作搜尋無法滿足一些進階的搜尋需求,比如:搜尋速度要快、搜尋結果按相關度排序、搜尋内容格式不固定等,這裡就需要使用全文檢索技術實作搜尋功能。

使用Lucene實作

單獨使用Lucene實作站内搜尋需要開發的工作量較大,主要表現在:索引維護、索引性能優化、搜尋性能優化等,是以不建議采用。

使用solr實作

基于Solr實作站内搜尋擴充性較好并且可以減少程式員的工作量,因為Solr提供了較為完備的搜尋引擎解決方案,是以在門戶、論壇等系統中常用此方案。

2. 什麼是solr

Solr 是Apache下的一個頂級開源項目,采用Java開發,它是基于Lucene的全文搜尋伺服器。Solr提供了比Lucene更為豐富的查詢語言,同時實作了可配置、可擴充,并對索引、搜尋性能進行了優化。

Solr可以獨立運作,運作在Jetty、Tomcat等這些Servlet容器中,Solr 索引的實作方法很簡單,用 POST 方法向 Solr 伺服器發送一個描述 Field 及其内容的 XML 文檔,Solr根據xml文檔添加、删除、更新索引 。Solr 搜尋隻需要發送 HTTP GET 請求,然後對 Solr 傳回Xml、json等格式的查詢結果進行解析,組織頁面布局。Solr不提供建構UI的功能,Solr提供了一個管理界面,通過管理界面可以查詢Solr的配置和運作情況。

Solr與Lucene的差別:

Lucene是一個開放源代碼的全文檢索引擎工具包,它不是一個完整的全文檢索引擎,Lucene提供了完整的查詢引擎和索引引擎,目的是為軟體開發人員提供一個簡單易用的工具包,以友善的在目标系統中實作全文檢索的功能,或者以Lucene為基礎建構全文檢索引擎。

Solr的目标是打造一款企業級的搜尋引擎系統,它是一個搜尋引擎服務,可以獨立運作,通過Solr可以非常快速的建構企業的搜尋引擎,通過Solr也可以高效的完成站内搜尋功能。

全文檢索技術-solr

二、Solr安裝及配置

2.1 Solr的下載下傳

從Solr官方網站(

http://lucene.apache.org/solr/

)下載下傳Solr4.10.3,根據Solr的運作環境,Linux下需要下載下傳lucene-4.10.3.tgz,windows下需要下載下傳lucene-4.10.3.zip。

Solr使用指南可參考:

https://wiki.apache.org/solr/FrontPage

2.2 Solr的檔案夾結構

将solr-4.10.3.zip解壓:

全文檢索技術-solr

bin:solr的運作腳本

contrib:solr的一些貢獻軟體/插件,用于增強solr的功能。

dist:該目錄包含build過程中産生的war和jar檔案,以及相關的依賴檔案。

docs:solr的API文檔

example:solr工程的例子目錄:

 example/solr:

該目錄是一個包含了預設配置資訊的Solr的Core目錄。           

 example/multicore:

該目錄包含了在Solr的multicore中設定的多個Core目錄。            

 example/webapps:

該目錄中包括一個solr.war,該war可作為solr的運作執行個體工程。           

licenses:solr相關的一些許可資訊

2.3 運作環境

solr 需要運作在一個Servlet容器中,Solr4.10.3要求jdk使用1.7以上,Solr預設提供Jetty(java寫的Servlet容器),本教程使用Tocmat作為Servlet容器,環境如下:

Solr:Solr4.10.3

Jdk:jdk1.7.0_72

Tomcat:apache-tomcat-7.0.53

三、Solr整合tomcat

3.1 Solr Home與SolrCore

建立一個Solr home目錄,SolrHome是Solr運作的主目錄,目錄中包括了運作Solr執行個體所有的配置檔案和資料檔案,Solr執行個體就是SolrCore,一個SolrHome可以包括多個SolrCore(Solr執行個體),每個SolrCore提供單獨的搜尋和索引服務。

examplesolr是一個solr home目錄結構,如下:

全文檢索技術-solr

上圖中“collection1”是一個SolrCore(Solr執行個體)目錄 ,目錄内容如下所示:

全文檢索技術-solr

說明:

collection1:叫做一個Solr運作執行個體SolrCore,SolrCore名稱不固定,一個solr運作執行個體對外單獨提供索引和搜尋接口。

solrHome中可以建立多個solr運作執行個體SolrCore。

一個solr的運作執行個體對應一個索引目錄。

conf是SolrCore的配置檔案目錄 。

data目錄存放索引檔案需要建立

3.2 整合步驟

第一步:安裝tomcat。D:tempapache-tomcat-7.0.53

第二步:把solr的war包複制到tomcat 的webapp目錄下。

把solr-4.10.3distsolr-4.10.3.war複制到D:tempapache-tomcat-7.0.53webapps下。

改名為solr.war

第三步:solr.war解壓。使用壓縮工具解壓或者啟動tomcat自動解壓。解壓之後删除solr.war

第四步:把solr-4.10.3examplelibext目錄下的所有的jar包添加到solr工程中

第五步:配置solrHome和solrCore。

1)建立一個solrhome(存放solr所有配置檔案的一個檔案夾)。solr-4.10.3examplesolr目錄就是一個标準的solrhome。

2)把solr-4.10.3examplesolr檔案夾複制到D:temp0108路徑下,改名為solrhome,改名不是必須的,是為了便于了解。

3)在solrhome下有一個檔案夾叫做collection1這就是一個solrcore。就是一個solr的執行個體。一個solrcore相當于mysql中一個資料庫。Solrcore之間是互相隔離。

  1. 在solrcore中有一個檔案夾叫做conf,包含了索引solr執行個體的配置資訊。
  2. 在conf檔案夾下有一個solrconfig.xml。配置執行個體的相關資訊。如果使用預設配置可以不用做任何修改。

    Xml的配置資訊:

Lib:solr服務依賴的擴充包,預設的路徑是collection1lib檔案夾,如果沒有 就建立一個

dataDir:配置了索引庫的存放路徑。預設路徑是collection1data檔案夾,如 果沒有data檔案夾,會自動建立。

requestHandler:

全文檢索技術-solr
全文檢索技術-solr

第六步:告訴solr伺服器配置檔案也就是solrHome的位置。修改web.xml使用jndi的方式告訴solr伺服器。

Solr/home名稱必須是固定的。

全文檢索技術-solr
全文檢索技術-solr

第七步:啟動tomcat

第八步:通路

http://localhost:8080/solr/

四、Solr背景管理

4.1 管理界面

全文檢索技術-solr

Dashboard

儀表盤,顯示了該Solr執行個體開始啟動運作的時間、版本、系統資源、jvm等資訊。

Logging

Solr運作日志資訊

Cloud

Cloud即SolrCloud,即Solr雲(叢集),當使用Solr Cloud模式運作時會顯示此菜單,如下圖是Solr Cloud的管理界面:

全文檢索技術-solr

Core Admin

Solr Core的管理界面。Solr Core 是Solr的一個獨立運作執行個體機關,它可以對外提供索引和搜尋服務,一個Solr工程可以運作多個SolrCore(Solr執行個體),一個Core對應一個索引目錄。

添加solrcore:

第一步:複制collection1改名為collection2

第二步:修改core.properties。name=collection2

第三步:重新開機tomcat

java properties

Solr在JVM 運作環境中的屬性資訊,包括類路徑、檔案編碼、jvm記憶體設定等資訊。

Tread Dump

顯示Solr Server中目前活躍線程資訊,同時也可以跟蹤線程運作棧資訊。

Core selector

選擇一個SolrCore進行詳細操作,如下:

全文檢索技術-solr

Analysis

全文檢索技術-solr

通過此界面可以測試索引分析器和搜尋分析器的執行情況。

Dataimport

可以定義資料導入處理器,從關系資料庫将資料導入 到Solr索引庫中。

Document

通過此菜單可以建立索引、更新索引、删除索引等操作,界面如下:

全文檢索技術-solr

/update表示更新索引,solr預設根據id(唯一限制)域來更新Document的内容,如果根據id值搜尋不到id域則會執行添加操作,如果找到則更新。

Query

全文檢索技術-solr

通過/select執行搜尋索引,必須指定“q”查詢條件方可搜尋。

五、配置中文分析器

Schema.xml

schema.xml,在SolrCore的conf目錄下,它是Solr資料表配置檔案,它定義了加入索引的資料的資料類型的。主要包括FieldTypes、Fields和其他的一些預設設定。

全文檢索技術-solr

FieldType域類型定義

下邊“text_general”是Solr預設提供的FieldType,通過它說明FieldType定義的内容:

全文檢索技術-solr

FieldType子結點包括:name,class,positionIncrementGap等一些參數:

name:是這個FieldType的名稱

class:是Solr提供的包solr.TextField,solr.TextField 允許使用者通過分析器來定制索引和查詢,分析器包括一個分詞器(tokenizer)和多個過濾器(filter)

positionIncrementGap:可選屬性,定義在同一個文檔中此類型資料的空白間隔,避免短語比對錯誤,此值相當于Lucene的短語查詢設定slop值,根據經驗設定為100。

例如:搜尋big car,如果document中存的是big red car,就無法搜尋到了, positionIncrementGap就是設定big和car中間最大的間隔距離,隻要在距離内就能搜尋到.

在FieldType定義的時候最重要的就是定義這個類型的資料在建立索引和進行查詢的時候要使用的分析器analyzer,包括分詞和過濾

索引分析器中:使用solr.StandardTokenizerFactory标準分詞器,solr.StopFilterFactory停用詞過濾器,solr.LowerCaseFilterFactory小寫過濾器。

搜尋分析器中:使用solr.StandardTokenizerFactory标準分詞器,solr.StopFilterFactory停用詞過濾器,這裡還用到了solr.SynonymFilterFactory同義詞過濾器。

Field定義

在fields結點内定義具體的Field,filed定義包括name,type(為之前定義過的各種FieldType),indexed(是否被索引),stored(是否被儲存),multiValued(是否存儲多個值)等屬性。

如下:

<field name="name" type="text_general" indexed="true" stored="true"/>
<field name="features" type="text_general" indexed="true" stored="true" multiValued="true"/>           

multiValued:該Field如果要存儲多個值時設定為true,solr允許一個Field存儲多個值,比如存儲一個使用者的好友id(多個),商品的圖檔(多個,大圖和小圖),通過使用solr查詢要看出傳回給用戶端是數組:

全文檢索技術-solr

uniqueKey

Solr中預設定義唯一主鍵key為id域,如下:

全文檢索技術-solr

Solr在删除、更新索引時使用id域進行判斷,也可以自定義唯一主鍵。

注意在建立索引時必須指定唯一限制。

copyField複制域

copyField複制域,可以将多個Field複制到一個Field中,以便進行統一的檢索:

比如,輸入關鍵字搜尋title标題内容content,

定義title、content、text的域:

全文檢索技術-solr
全文檢索技術-solr
全文檢索技術-solr

根據關鍵字隻搜尋text域的内容就相當于搜尋title和content,将title和content複制到text中,如下:

全文檢索技術-solr

dynamicField(動态字段)

動态字段就是不用指定具體的名稱,隻要定義字段名稱的規則,例如定義一個 dynamicField,name 為*_i,定義它的type為text,那麼在使用這個字段的時候,任何以_i結尾的字段都被認為是符合這個定義的,例如:name_i,gender_i,school_i等。

自定義Field名為:product_title_t,“product_title_t”和scheam.xml中的dynamicField規則比對成功,如下:

全文檢索技術-solr

“product_title_t”是以“_t”結尾。

建立索引:

全文檢索技術-solr

搜尋索引:

全文檢索技術-solr

六、安裝中文分詞器

使用IKAnalyzer中文分析器。

第一步:把IKAnalyzer2012FF_u1.jar添加到solr/WEB-INF/lib目錄下。

第二步:複制IKAnalyzer的配置檔案和自定義詞典和停用詞詞典到solr的classpath下。

也就是在apache-tomcat-7.0.54webappssolrWEB-INF目錄下建立classes目錄,将配置檔案和詞典放進去.

第三步:在schema.xml中添加一個自定義的fieldType,使用中文分析器。

<!-- IKAnalyzer-->
    <fieldType name="text_ik" class="solr.TextField">
      <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>           

第四步:定義field,指定field的type屬性為text_ik

<!--IKAnalyzer Field-->
   <field name="title_ik" type="text_ik" indexed="true" stored="true" />
   <field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>
           

第五步:重新開機tomcat

測試:

全文檢索技術-solr

設定業務系統Field

如果不使用Solr提供的Field可以針對具體的業務需要自定義一套Field,如下是商品資訊Field:

<!--product-->
   <field name="product_name" type="text_ik" indexed="true" stored="true"/>
   <field name="product_price"  type="float" indexed="true" stored="true"/>
   <field name="product_description" type="text_ik" indexed="true" stored="false" />
   <field name="product_picture" type="string" indexed="false" stored="true" />
   <field name="product_catalog_name" type="string" indexed="true" stored="true" />

   <field name="product_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
   <copyField source="product_name" dest="product_keywords"/>
   <copyField source="product_description" dest="product_keywords"/>           

七、Solr管理索引庫

**維護索引

添加/更新文檔

添加單個文檔**

全文檢索技術-solr

批量導入資料

使用dataimport插件批量導入資料。

第一步:把dataimport插件依賴的jar包添加到solrcore(collection1lib)中

還需要mysql的資料庫驅動。

第二步:配置solrconfig.mxl檔案,添加一個requestHandler。

<requestHandler name="/dataimport" 
class="org.apache.solr.handler.dataimport.DataImportHandler">
   <lst name="defaults">
     <str name="config">data-config.xml</str>
    </lst>
 </requestHandler>            

第三步:建立一個data-config.xml,儲存到collection1conf目錄下

<?xml version="1.0" encoding="UTF-8" ?>  
<dataConfig>   
<dataSource type="JdbcDataSource"   
          driver="com.mysql.jdbc.Driver"   
          url="jdbc:mysql://localhost:3306/lucene"   
          user="root"   
          password="root"/>   
<document>   
    <entity name="product" query="SELECT pid,name,catalog_name,price,description,picture FROM products ">
         <field column="pid" name="id"/> 
         <field column="name" name="product_name"/> 
         <field column="catalog_name" name="product_catalog_name"/> 
         <field column="price" name="product_price"/> 
         <field column="description" name="product_description"/> 
         <field column="picture" name="product_picture"/> 
    </entity>   
</document>   

</dataConfig>           

第四步:重新開機tomcat

全文檢索技術-solr

第五步:點選“execute”按鈕導入資料

到入資料前會先清空索引庫,然後再導入。

删除文檔

删除索引格式如下:

1) 删除制定ID的索引

<id>8</id>           

2) 删除查詢到的索引資料

<query>product_catalog_name:幽默雜貨</query>           

3) 删除所有索引資料

<query>*:*</query>           

查詢索引

通過/select搜尋索引,Solr制定一些參數完成不同需求的搜尋:

  1. q - 查詢字元串,必須的,如果查詢所有使用:。
    全文檢索技術-solr
  2. fq - (filter query)過慮查詢,作用:在q查詢符合結果中同時是fq查詢符合的,例如::
    全文檢索技術-solr

過濾查詢價格從1到20的記錄。

也可以在“q”查詢條件中使用product_price:[1 TO 20],如下:

全文檢索技術-solr

也可以使用“*”表示無限,例如:

20以上:product_price:[20 TO *]

20以下:product_price:[* TO 20]

  1. sort - 排序,格式:sort=+[,+]… 。示例:
    全文檢索技術-solr

按價格降序

  1. start - 分頁顯示使用,開始記錄下标,從0開始
  2. rows - 指定傳回結果最多有多少條記錄,配合start來實作分頁。
    全文檢索技術-solr

顯示前10條。

  1. fl - 指定傳回那些字段内容,用逗号或空格分隔多個。
    全文檢索技術-solr

顯示商品圖檔、商品名稱、商品價格

  1. df-指定一個搜尋Field
    全文檢索技術-solr

也可以在SolrCore目錄 中conf/solrconfig.xml檔案中指定預設搜尋Field,指定後就可以直接在“q”查詢條件中輸入關鍵字。

全文檢索技術-solr
  1. wt - (writer type)指定輸出格式,可以有 xml, json, php, phps, 後面 solr 1.3增加的,要用通知我們,因為預設沒有打開。
  2. hl 是否高亮 ,設定高亮Field,設定格式字首和字尾。
    全文檢索技術-solr

八、使用SolrJ管理索引庫

什麼是solrJ

solrj是通路Solr服務的java用戶端,提供索引和搜尋的請求方法,SolrJ通常在嵌入在業務系統中,通過SolrJ的API接口操作Solr服務,如下圖:

全文檢索技術-solr

依賴的jar包

全文檢索技術-solr

添加文檔

實作步驟

第一步:建立一個java工程

第二步:導入jar包。包括solrJ的jar包。還需要

第三步:和Solr伺服器建立連接配接。HttpSolrServer對象建立連接配接。

第四步:建立一個SolrInputDocument對象,然後添加域。

第五步:将SolrInputDocument添加到索引庫。

第六步:送出。

代碼實作

//向索引庫中添加索引
    @Test
    public void addDocument() throws Exception {
        //和solr伺服器建立連接配接
        //參數:solr伺服器的位址
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //建立一個文檔對象
        SolrInputDocument document = new SolrInputDocument();
        //向文檔中添加域
        //第一個參數:域的名稱,域的名稱必須是在schema.xml中定義的
        //第二個參數:域的值
        document.addField("id", "c0001");
        document.addField("title_ik", "使用solrJ添加的文檔");
        document.addField("content_ik", "文檔的内容");
        document.addField("product_name", "商品名稱");
        //把document對象添加到索引庫中
        solrServer.add(document);
        //送出修改
        solrServer.commit();
        
    }           

**删除文檔

根據id删除**

//删除文檔,根據id删除
    @Test
    public void deleteDocumentByid() throws Exception {
        //建立連接配接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //根據id删除文檔
        solrServer.deleteById("c0001");
        //送出修改
        solrServer.commit();
    }           

根據查詢删除

查詢文法完全支援Lucene的查詢文法。

//根據查詢條件删除文檔
    @Test
    public void deleteDocumentByQuery() throws Exception {
        //建立連接配接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //根據查詢條件删除文檔
        solrServer.deleteByQuery("*:*");
        //送出修改
        solrServer.commit();
    }           

修改文檔

在solrJ中修改沒有對應的update方法,隻有add方法,隻需要添加一條新的文檔,和被修改的文檔id一緻就,可以修改了。本質上就是先删除後添加。

查詢文檔

簡單查詢

//查詢索引
    @Test
    public void queryIndex() throws Exception {
        //建立連接配接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //建立一個query對象
        SolrQuery query = new SolrQuery();
        //設定查詢條件
        query.setQuery("*:*");
        //執行查詢
        QueryResponse queryResponse = solrServer.query(query);
        //取查詢結果
        SolrDocumentList solrDocumentList = queryResponse.getResults();
        //共查詢到商品數量
        System.out.println("共查詢到商品數量:" + solrDocumentList.getNumFound());
        //周遊查詢的結果
        for (SolrDocument solrDocument : solrDocumentList) {
            System.out.println(solrDocument.get("id"));
            System.out.println(solrDocument.get("product_name"));
            System.out.println(solrDocument.get("product_price"));
            System.out.println(solrDocument.get("product_catalog_name"));
            System.out.println(solrDocument.get("product_picture"));
            
        }
    }           

複雜查詢

其中包含查詢、過濾、分頁、排序、高亮顯示等處理。

//複雜查詢索引
    @Test
    public void queryIndex2() throws Exception {
        //建立連接配接
        SolrServer solrServer = new HttpSolrServer("http://localhost:8080/solr");
        //建立一個query對象
        SolrQuery query = new SolrQuery();
        //設定查詢條件
        query.setQuery("鑽石");
        //過濾條件
        query.setFilterQueries("product_catalog_name:幽默雜貨");
        //排序條件
        query.setSort("product_price", ORDER.asc);
        //分頁處理
        query.setStart(0);
        query.setRows(10);
        //結果中域的清單
        query.setFields("id","product_name","product_price","product_catalog_name","product_picture");
        //設定預設搜尋域
        query.set("df", "product_keywords");
        //高亮顯示
        query.setHighlight(true);
        //高亮顯示的域
        query.addHighlightField("product_name");
        //高亮顯示的字首
        query.setHighlightSimplePre("<em>");
        //高亮顯示的字尾
        query.setHighlightSimplePost("</em>");
        //執行查詢
        QueryResponse queryResponse = solrServer.query(query);
        //取查詢結果
        SolrDocumentList solrDocumentList = queryResponse.getResults();
        //共查詢到商品數量
        System.out.println("共查詢到商品數量:" + solrDocumentList.getNumFound());
        //周遊查詢的結果
        for (SolrDocument solrDocument : solrDocumentList) {
            System.out.println(solrDocument.get("id"));
            //取高亮顯示
            String productName = "";
            Map<String, Map<String, List<String>>> highlighting = queryResponse.getHighlighting();
            List<String> list = highlighting.get(solrDocument.get("id")).get("product_name");
            //判斷是否有高亮内容
            if (null != list) {
                productName = list.get(0);
            } else {
                productName = (String) solrDocument.get("product_name");
            }
            
            System.out.println(productName);
            System.out.println(solrDocument.get("product_price"));
            System.out.println(solrDocument.get("product_catalog_name"));
            System.out.println(solrDocument.get("product_picture"));
            
        }
    }