Lucene 教程

Lucene是apache組織的一個用java實作全文搜尋引擎的開源項目。其功能非常的強大，api也很簡單。總得來說用Lucene來進行建立和搜尋和操作資料庫是差不多的(有點像)，Document可以看作是資料庫的一行記錄，Field可以看作是資料庫的字段。用lucene實現搜尋引擎就像用JDBC實作連接配接資料庫一樣簡單。

Lucene2.0，它與以前廣泛應用和介紹的Lucene 1.4.3并不相容。 Lucene2.0的下載下傳位址是

例子一：

1、在windows系統下的的C槽，建一個名叫s的檔案夾,在該檔案夾裡面随便建三個txt檔案，随便起名啦，就叫"1.txt","2.txt"和"3.txt"啦

其中1.txt的内容如下：

Lucene 教程

中華人民共和國

Lucene 教程

全國人民

Lucene 教程

2006年

而"2.txt"和"3.txt"的内容也可以随便寫幾寫，這裡懶寫，就複制一個和1.txt檔案的内容一樣吧

2、下載下傳lucene包，放在classpath路徑中

建立索引:

Lucene 教程

package lighter.javaeye.com;

Lucene 教程

import java.io.BufferedReader;

Lucene 教程

import java.io.File;

Lucene 教程

import java.io.FileInputStream;

Lucene 教程

import java.io.IOException;

Lucene 教程

import java.io.InputStreamReader;

Lucene 教程

import java.util.Date;

Lucene 教程

import org.apache.lucene.analysis.Analyzer;

Lucene 教程

import org.apache.lucene.analysis.standard.StandardAnalyzer;

Lucene 教程

import org.apache.lucene.document.Document;

Lucene 教程

import org.apache.lucene.document.Field;

Lucene 教程

import org.apache.lucene.index.IndexWriter;

Lucene 教程

/** */ /**

Lucene 教程

* author lighter date 2006-8-7

Lucene 教程

public class TextFileIndexer

Lucene 教程

{

Lucene 教程

public static void main(String[] args) throws Exception

Lucene 教程

/**/ /* 指明要索引檔案夾的位置,這裡是C槽的S檔案夾下 */

Lucene 教程

File fileDir = new File( " c:\\s " );

Lucene 教程

/**/ /* 這裡放索引檔案的位置 */

Lucene 教程

File indexDir = new File( " c:\\index " );

Lucene 教程

Analyzer luceneAnalyzer = new StandardAnalyzer();

Lucene 教程

IndexWriter indexWriter = new IndexWriter(indexDir, luceneAnalyzer,

Lucene 教程

true );

Lucene 教程

File[] textFiles = fileDir.listFiles();

Lucene 教程

long startTime = new Date().getTime();

Lucene 教程

// 增加document到索引去

Lucene 教程

for ( int i = 0 ; i < textFiles.length; i ++ )

Lucene 教程

if (textFiles[i].isFile()

Lucene 教程

&& textFiles[i].getName().endsWith( " .txt " ))

Lucene 教程

System.out.println( " File " + textFiles[i].getCanonicalPath()

Lucene 教程

+ " 正在被索引

Lucene 教程

. " );

Lucene 教程

String temp = FileReaderAll(textFiles[i].getCanonicalPath(),

Lucene 教程

" GBK " );

Lucene 教程

System.out.println(temp);

Lucene 教程

Document document = new Document();

Lucene 教程

Field FieldPath = new Field( " path " , textFiles[i].getPath(),

Lucene 教程

Field.Store.YES, Field.Index.NO);

Lucene 教程

Field FieldBody = new Field( " body " , temp, Field.Store.YES,

Lucene 教程

Field.Index.TOKENIZED,

Lucene 教程

Field.TermVector.WITH_POSITIONS_OFFSETS);

Lucene 教程

document.add(FieldPath);

Lucene 教程

document.add(FieldBody);

Lucene 教程

indexWriter.addDocument(document);

Lucene 教程

}

Lucene 教程

}

Lucene 教程

// optimize()方法是對索引進行優化

Lucene 教程

indexWriter.optimize();

Lucene 教程

indexWriter.close();

Lucene 教程

// 測試一下索引的時間

Lucene 教程

long endTime = new Date().getTime();

Lucene 教程

System.out

Lucene 教程

.println( " 這花費了 "

Lucene 教程

+ (endTime - startTime)

Lucene 教程

+ " 毫秒來把文檔增加到索引裡面去! "

Lucene 教程

+ fileDir.getPath());

Lucene 教程

}

Lucene 教程

public static String FileReaderAll(String FileName, String charset)

Lucene 教程

throws IOException

Lucene 教程

BufferedReader reader = new BufferedReader( new InputStreamReader(

Lucene 教程

new FileInputStream(FileName), charset));

Lucene 教程

String line = new String();

Lucene 教程

String temp = new String();

Lucene 教程

while ((line = reader.readLine()) != null )

Lucene 教程

temp += line;

Lucene 教程

reader.close();

Lucene 教程

return temp;

Lucene 教程

}

索引的結果：

Lucene 教程

File C:\s\ 1 .txt正在被索引

Lucene 教程

中華人民共和國全國人民2006年

Lucene 教程

File C:\s\ 2 .txt正在被索引

Lucene 教程

File C:\s\ 3 .txt正在被索引

Lucene 教程

這花費了297 毫秒來把文檔增加到索引裡面去 ! c:\s

3、建立了索引之後，查詢啦....

Lucene 教程

import org.apache.lucene.queryParser.ParseException;

Lucene 教程

import org.apache.lucene.queryParser.QueryParser;

Lucene 教程

import org.apache.lucene.search.Hits;

Lucene 教程

import org.apache.lucene.search.IndexSearcher;

Lucene 教程

import org.apache.lucene.search.Query;

Lucene 教程

public class TestQuery

Lucene 教程

public static void main(String[] args) throws IOException, ParseException

Lucene 教程

Hits hits = null ;

Lucene 教程

String queryString = " 中華 " ;

Lucene 教程

Query query = null ;

Lucene 教程

IndexSearcher searcher = new IndexSearcher( " c:\\index " );

Lucene 教程

Analyzer analyzer = new StandardAnalyzer();

Lucene 教程

try

Lucene 教程

QueryParser qp = new QueryParser( " body " , analyzer);

Lucene 教程

query = qp.parse(queryString);

Lucene 教程

} catch (ParseException e)

Lucene 教程

if (searcher != null )

Lucene 教程

hits = searcher.search(query);

Lucene 教程

if (hits.length() > 0 )

Lucene 教程

System.out.println( " 找到: " + hits.length() + " 個結果! " );

Lucene 教程

}

Lucene 教程

}

Lucene 教程

其運作結果：

Lucene 教程

找到: 3 個結果 !

Lucene 其實很簡單的,它最主要就是做兩件事:建立索引和進行搜尋

來看一些在lucene中使用的術語,這裡并不打算作詳細的介紹,隻是點一下而已----因為這一個世界有一種好東西，叫搜尋。

IndexWriter:lucene中最重要的的類之一，它主要是用來将文檔加入索引，同時控制索引過程中的一些參數使用。

Analyzer:分析器,主要用于分析搜尋引擎遇到的各種文本。常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析器等。

Directory:索引存放的位置;lucene提供了兩種索引存放的位置，一種是磁盤，一種是記憶體。一般情況将索引放在磁盤上；相應地lucene提供了FSDirectory和RAMDirectory兩個類。

Document:文檔;Document相當于一個要進行索引的單元，任何可以想要被索引的檔案都必須轉化為Document對象才能進行索引。

Field：字段。

IndexSearcher:是lucene中最基本的檢索工具，所有的檢索都會用到IndexSearcher工具;

Query:查詢，lucene中支援模糊查詢，語義查詢，短語查詢，組合查詢等等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些類。

QueryParser: 是一個解析使用者輸入的工具，可以通過掃描使用者輸入的字元串，生成Query對象。

Hits:在搜尋完成之後，需要把搜尋結果傳回并顯示給使用者，隻有這樣才算是完成搜尋的目的。在lucene中，搜尋的結果的集合是用Hits類的執行個體來表示的。

上面作了一大堆名詞解釋，下面就看幾個簡單的執行個體吧:

1、簡單的的StandardAnalyzer測試例子

Lucene 教程

import java.io.StringReader;

Lucene 教程

import org.apache.lucene.analysis.Token;

Lucene 教程

import org.apache.lucene.analysis.TokenStream;

Lucene 教程

public class StandardAnalyzerTest

Lucene 教程

// 構造函數，

Lucene 教程

public StandardAnalyzerTest()

Lucene 教程

public static void main(String[] args)

Lucene 教程

// 生成一個StandardAnalyzer對象

Lucene 教程

Analyzer aAnalyzer = new StandardAnalyzer();

Lucene 教程

// 測試字元串

Lucene 教程

StringReader sr = new StringReader( " lighter javaeye com is the are on " );

Lucene 教程

// 生成TokenStream對象

Lucene 教程

TokenStream ts = aAnalyzer.tokenStream( " name " , sr);

Lucene 教程

int i = 0 ;

Lucene 教程

Token t = ts.next();

Lucene 教程

while (t != null )

Lucene 教程

// 輔助輸出時顯示行号

Lucene 教程

i ++ ;

Lucene 教程

// 輸出處理後的字元

Lucene 教程

System.out.println( " 第 " + i + " 行: " + t.termText());

Lucene 教程

// 取得下一個字元

Lucene 教程

t = ts.next();

Lucene 教程

} catch (IOException e)

Lucene 教程

e.printStackTrace();

Lucene 教程

}

Lucene 教程

顯示結果：

Lucene 教程

第1行:lighter

Lucene 教程

第2行:javaeye

Lucene 教程

第3行:com

提示一下：

StandardAnalyzer是lucene中内置的"标準分析器",可以做如下功能:

1、對原有句子按照空格進行了分詞

2、所有的大寫字母都可以能轉換為小寫的字母

3、可以去掉一些沒有用處的單詞，例如"is","the","are"等單詞，也删除了所有的标點

檢視一下結果與"new StringReader("lighter javaeye com is the are on")"作一個比較就清楚明了。

這裡不對其API進行解釋了，具體見lucene的官方文檔。需要注意一點，這裡的代碼使用的是lucene2的API，與1.43版有一些明顯的差别。

2、看另一個執行個體,簡單地建立索引，進行搜尋

Lucene 教程

import org.apache.lucene.store.FSDirectory;

Lucene 教程

public class FSDirectoryTest

Lucene 教程

// 建立索引的路徑

Lucene 教程

public static final String path = " c:\\index2 " ;

Lucene 教程

Document doc1 = new Document();

Lucene 教程

doc1.add( new Field( " name " , " lighter javaeye com " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

Document doc2 = new Document();

Lucene 教程

doc2.add( new Field( " name " , " lighter blog " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

IndexWriter writer = new IndexWriter(FSDirectory.getDirectory(path, true ), new StandardAnalyzer(), true );

Lucene 教程

writer.setMaxFieldLength( 3 );

Lucene 教程

writer.addDocument(doc1);

Lucene 教程

writer.addDocument(doc2);

Lucene 教程

writer.close();

Lucene 教程

IndexSearcher searcher = new IndexSearcher(path);

Lucene 教程

QueryParser qp = new QueryParser( " name " , new StandardAnalyzer());

Lucene 教程

query = qp.parse( " lighter " );

Lucene 教程

hits = searcher.search(query);

Lucene 教程

System.out.println( " 查找\ " lighter\ " 共 " + hits.length() + " 個結果 " );

Lucene 教程

query = qp.parse( " javaeye " );

Lucene 教程

System.out.println( " 查找\ " javaeye\ " 共 " + hits.length() + " 個結果 " );

Lucene 教程

運作結果：

Lucene 教程

查找 " lighter " 共2個結果

Lucene 教程

查找 " javaeye " 共1個結果

到現在我們已經可以用lucene建立索引了

下面介紹一下幾個功能來完善一下：

1．索引格式

其實索引目錄有兩種格式，

一種是除配置檔案外，每一個Document獨立成為一個檔案（這種搜尋起來會影響速度）。

另一種是全部的Document成一個檔案，這樣屬于複合模式就快了。

2.索引檔案可放的位置：

索引可以存放在兩個地方1.硬碟，2.記憶體

放在硬碟上可以用FSDirectory()，放在記憶體的用RAMDirectory()不過一關機就沒了

Lucene 教程

FSDirectory.getDirectory(File file, boolean create)

Lucene 教程

FSDirectory.getDirectory(String path, boolean create)

兩個工廠方法傳回目錄

New RAMDirectory()就直接可以

再和

Lucene 教程

IndexWriter(Directory d, Analyzer a, boolean create)

一配合就行了

如：

Lucene 教程

IndexWrtier indexWriter = new IndexWriter(FSDirectory.getDirectory(“c:\\index”, true ), new StandardAnlyazer(), true );

Lucene 教程

IndexWrtier indexWriter = new IndexWriter( new RAMDirectory(), new StandardAnlyazer(), true );

3.索引的合并

這個可用

Lucene 教程

IndexWriter.addIndexes(Directory[] dirs)

将目錄加進去

來看個例子:

Lucene 教程

public void UniteIndex() throws IOException

Lucene 教程

{

Lucene 教程

IndexWriter writerDisk = new IndexWriter(FSDirectory.getDirectory( " c:\\indexDisk " , true ), new StandardAnalyzer(), true );

Lucene 教程

Document docDisk = new Document();

Lucene 教程

docDisk.add( new Field( " name " , " 程式員之家 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

writerDisk.addDocument(docDisk);

Lucene 教程

RAMDirectory ramDir = new RAMDirectory();

Lucene 教程

IndexWriter writerRam = new IndexWriter(ramDir, new StandardAnalyzer(), true );

Lucene 教程

Document docRam = new Document();

Lucene 教程

docRam.add( new Field( " name " , " 程式員雜志 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

writerRam.addDocument(docRam);

Lucene 教程

writerRam.close(); // 這個方法非常重要，是必須調用的

Lucene 教程

writerDisk.addIndexes( new Directory[]

Lucene 教程

{ramDir} );

Lucene 教程

writerDisk.close();

Lucene 教程

}

Lucene 教程

public void UniteSearch() throws ParseException, IOException

Lucene 教程

QueryParser queryParser = new QueryParser( " name " , new StandardAnalyzer());

Lucene 教程

Query query = queryParser.parse( " 程式員 " );

Lucene 教程

IndexSearcher indexSearcher = new IndexSearcher( " c:\\indexDisk " );

Lucene 教程

Hits hits = indexSearcher.search(query);

Lucene 教程

System.out.println( " 找到了 " + hits.length() + " 結果 " );

Lucene 教程

for ( int i = 0 ;i

Lucene 教程

Document doc = hits.doc(i);

Lucene 教程

System.out.println(doc.get( " name " ));

Lucene 教程

}

Lucene 教程

}

這個例子是将記憶體中的索引合并到硬碟上來.

注意：合并的時候一定要将被合并的那一方的IndexWriter的close()方法調用。

4.對索引的其它操作:

IndexReader類是用來操作索引的，它有對Document,Field的删除等操作。

下面一部分的内容是：全文的搜尋

全文的搜尋主要是用：IndexSearcher,Query,Hits,Document(都是Query的子類),有的時候用QueryParser

主要步驟：

Lucene 教程

1 . new QueryParser(Field字段， new 分析器)

Lucene 教程

2 .Query query = QueryParser.parser(“要查詢的字串”);這個地方我們可以用反射api看一下query究竟是什麼類型

Lucene 教程

3 . new IndexSearcher(索引目錄).search(query);傳回Hits

Lucene 教程

4 .用Hits.doc(n);可以周遊出Document

Lucene 教程

5 .用Document可得到Field的具體資訊了。

其實1　，2兩步就是為了弄出個Query 執行個體，究竟是什麼類型的看分析器了。

拿以前的例子來說吧

Lucene 教程

QueryParser queryParser = new QueryParser( " name " , new StandardAnalyzer());

Lucene 教程

/**/ /* 這裡傳回的就是org.apache.lucene.search.PhraseQuery */

Lucene 教程

Hits hits = indexSearcher.search(query);

不管是什麼類型，無非傳回的就是Query的子類，我們完全可以不用這兩步直接new個Query的子類的執行個體就ok了，不過一般還是用這兩步因為它傳回的是PhraseQuery這個是非常強大的query子類它可以進行多字搜尋用QueryParser可以設定各個關鍵字之間的關系這個是最常用的了。

IndexSearcher:

其實IndexSearcher它内部自帶了一個IndexReader用來讀取索引的，IndexSearcher有個close()方法，這個方法不是用來關閉IndexSearche的是用來關閉自帶的IndexReader。

QueryParser呢可以用parser.setOperator()來設定各個關鍵字之間的關系（與還是或）它可以自動通過空格從字串裡面将關鍵字分離出來。

注意：用QueryParser搜尋的時候分析器一定的和建立索引時候用的分析器是一樣的。

Query:

可以看一個lucene2.0的幫助文檔有很多的子類:

BooleanQuery, ConstantScoreQuery, ConstantScoreRangeQuery, DisjunctionMaxQuery, FilteredQuery, MatchAllDocsQuery, MultiPhraseQuery, MultiTermQuery, PhraseQuery, PrefixQuery, RangeQuery, SpanQuery, TermQuery

各自有用法看一下文檔就能知道它們的用法了

下面一部分講一下lucene的分析器:

分析器是由分詞器和過濾器組成的，拿英文來說吧分詞器就是通過空格把單詞分開，過濾器就是把the,to,of等詞去掉不被搜尋和索引。

我們最常用的是StandardAnalyzer()它是lucene的标準分析器它內建了内部的許多的分析器。

最後一部分了：lucene的進階搜尋了

1.排序

Lucene有内置的排序用IndexSearcher.search(query,sort)但是功能并不理想。我們需要自己實作自定義的排序。

這樣的話得實作兩個接口: ScoreDocComparator, SortComparatorSource

用IndexSearcher.search(query,new Sort(new SortField(String Field,SortComparatorSource)));

就看個例子吧：

這是一個建立索引的例子：

Lucene 教程

public void IndexSort() throws IOException

Lucene 教程

IndexWriter writer = new IndexWriter( " C:\\indexStore " , new StandardAnalyzer(), true );

Lucene 教程

Document doc = new Document()

Lucene 教程

doc.add( new Field( " sort " , " 1 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

writer.addDocument(doc);

Lucene 教程

doc = new Document();

Lucene 教程

doc.add( new Field( " sort " , " 4 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

doc.add( new Field( " sort " , " 3 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

doc.add( new Field( " sort " , " 5 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

doc.add( new Field( " sort " , " 9 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

doc.add( new Field( " sort " , " 6 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

doc.add( new Field( " sort " , " 7 " ,Field.Store.YES,Field.Index.TOKENIZED));

Lucene 教程

writer.close();

Lucene 教程

}

Lucene 教程

下面是搜尋的例子:

[code]

public void SearchSort1() throws IOException, ParseException

IndexSearcher indexSearcher = new IndexSearcher("C:\\indexStore");

QueryParser queryParser = new QueryParser("sort",new StandardAnalyzer());

Query query = queryParser.parse("4");

Hits hits = indexSearcher.search(query);

System.out.println("有"+hits.length()+"個結果");

Document doc = hits.doc(0);

System.out.println(doc.get("sort"));

public void SearchSort2() throws IOException, ParseException

Query query = new RangeQuery(new Term("sort","1"),new Term("sort","9"),true);//這個地方前面沒有提到，它是用于範圍的Query可以看一下幫助文檔.

Hits hits = indexSearcher.search(query,new Sort(new SortField("sort",new MySortComparatorSource())));

for(int i=0;i

{

Document doc = hits.doc(i);

System.out.println(doc.get("sort"));

}

public class MyScoreDocComparator implements ScoreDocComparator

private Integer[]sort;

public MyScoreDocComparator(String s,IndexReader reader, String fieldname) throws IOException

{

sort = new Integer[reader.maxDoc()];

for(int i = 0;i

Document doc =reader.document(i);

sort[i]=new Integer(doc.get("sort"));

}

public int compare(ScoreDoc i, ScoreDoc j)

if(sort[i.doc]>sort[j.doc])

return 1;

if(sort[i.doc]

return -1;

return 0;

public int sortType()

return SortField.INT;

public Comparable sortValue(ScoreDoc i)

// TODO 自動生成方法存根

return new Integer(sort[i.doc]);

public class MySortComparatorSource implements SortComparatorSource

private static final long serialVersionUID = -9189690812107968361L;

public ScoreDocComparator newComparator(IndexReader reader, String fieldname)

throws IOException

if(fieldname.equals("sort"))

return new MyScoreDocComparator("sort",reader,fieldname);

return null;

}[/code]

SearchSort1()輸出的結果沒有排序,SearchSort2()就排序了。

2.多域搜尋MultiFieldQueryParser

如果想輸入關鍵字而不想關心是在哪個Field裡的就可以用MultiFieldQueryParser了

用它的構造函數即可後面的和一個Field一樣。

MultiFieldQueryParser. parse(String[] queries, String[] fields, BooleanClause.Occur[] flags, Analyzer analyzer) ~~~~~~~~~~~~~~~~~

第三個參數比較特殊這裡也是與以前lucene1.4.3不一樣的地方

看一個例子就知道了

String[] fields = {"filename", "contents", "description"};

BooleanClause.Occur[] flags = {BooleanClause.Occur.SHOULD,

BooleanClause.Occur.MUST,//在這個Field裡必須出現的

BooleanClause.Occur.MUST_NOT};//在這個Field裡不能出現

MultiFieldQueryParser.parse("query", fields, flags, analyzer);

1、lucene的索引不能太大，要不然效率會很低。大于1G的時候就必須考慮分布索引的問題

2、不建議用多線程來建索引，産生的互鎖問題很麻煩。經常發現索引被lock，無法重建立立的情況

3、中文分詞是個大問題，目前免費的分詞效果都很差。如果有能力還是自己實作一個分詞子產品，用最短路徑的切分方法，網上有教材和demo源碼，可以參考。

4、建增量索引的時候很耗cpu，在通路量大的時候會導緻cpu的idle為0

5、預設的評分機制不太合理，需要根據自己的業務定制

Lucene 教程

繼續閱讀

nginx location中斜線的位置的重要性

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method