天天看點

lucene 索引過程的核心類

IndexWriter 是索引過程的核心元件。用于建立一個新的索引并把文檔加到已有的索引中去。不能用于讀取或搜尋索引

**********************************************

Directory類描述了Lucene索引存放的位置,是個抽象的類

FSDirectory繼承Directory,具體實作在檔案系統的一個目錄下建立索引檔案

**********************************************

文本在被索引之前,需要經過分析器的處理,即分詞處理,應用程式在IndexWriter之前要制定所需要使用的分析器,負責從将被索引的文本檔案中提取詞彙單元(tokens),并提出剩下的無用資訊,例子[quote]http://qzxfl008.iteye.com/admin/blogs/1018962[/quote]

***********************************************

顧名思義文檔的意思,一個Document代表多個域(Field)的集合。Document是承載資料的實體,

************************************************

每個Field都對應于一段資料,這些資料在索引過程中可能被查詢活着在索引表中被檢索

Lucene提供四種不同類型的Field:

[b]Keyword域[/b]——不需要被分析,但會被逐字地被索引并存儲。該類适用于原始值,即需要别全部保留的Field,如URL,日期等

[b]UnIndexed 域[/b]——既不需要被分析也不進行索引,但是該值同樣被存儲在索引檔案中。适用于需要和搜尋結果一起被現實出來的,但使用者不會将它的值直接用于搜尋的情形。但不适合存儲大文本的索引

[b]UnStored 域[/b]——與UnIndexed剛好相反,

[b]Text 域[/b]——需要被分析切索引。