Lucene的學習第七篇——Lucene開發的lukeall的使用

2023-07-16 13:38:04

入門代碼的再學習後，前面的内容應該明白，了解80%以上，這裡介紹lukeall的使用。Lukeall就是lucene開發必備的，lukeall我從兩個方面介紹：

1：lukeall是什麼？

2：lukeall怎麼用？

先說上次遺留兩個問題：

1：預設麼排序的？

2：我們隻是能夠搜尋這個spring.txt文檔，怎麼實作搜尋“全文”，搜尋到“全文檢索.txt

如果我們能打開索引檔案，檢視索引庫是怎麼存放的。那麼就明白了，看看怎麼排序，哪些語彙單元，以及他們的索引。

這個檔案打開，需要我們的lukeall工具。

這就解決了lukeall是什麼問題。

 下面介紹lukeall怎麼用：

Lukeall是lucene的索引檢視工具，是一個jar包。

Lucene的學習第七篇——Lucene開發的lukeall的使用

第一個jar是IK分詞器（後面介紹）

運作lukeall（運作jar包的通用方法）

第一步：

準備lukeall jar包（與lucene的版本一緻，否則，會報異常）

将lukeall跟分詞器放到一起

第二步：運作

cmd 運作黑視窗，輸入指令：

java -jar lukeall-4.10.3.jar如果：運作lukeall，如果需要加載第三方分詞器，需通過-Djava.ext.dirs加載jar包:可簡單的将第三方分詞器和lukeall放在一塊兒，cmd下運作：

java -Djava.ext.dirs=. -jar lukeall-4.10.3.jar

執行結果：

Lucene的學習第七篇——Lucene開發的lukeall的使用

第三步：

1，選擇到索引庫所在的目錄，

2，點選ok打開

Lucene的學習第七篇——Lucene開發的lukeall的使用

域：

Lucene的學習第七篇——Lucene開發的lukeall的使用

四個域：

右邊每一行：就是一個域中的一個term。每個term中，包含：出現的次數，域名，term的内容。

是以到這裡：

搞明白了三個問題：

- :不同的域中分出來的相同的單詞，是不同的語彙單元，
 - ：term的預設排序，就是按照每個term出現的次數，
   3：我們不能根據“全文”，或者是“全文檢“，搜尋到文檔，是因為沒有這樣的内容的term,
   (顯示的是文檔的内容是一個漢字，分成了一個term)

Lucene的學習第七篇——Lucene開發的lukeall的使用

6個文檔，0-5；

文檔的四個域：

内容沒有儲存：是以顯示的是空

名字，路徑，大小，都有存。

根據介紹的

子類域和代碼進行一一比對，就明白了。

Lucene的學習第七篇——Lucene開發的lukeall的使用

傳回lucene/slor文章的目錄：http://blog.csdn.net/m15517986455/article/details/78986856

繼續閱讀

解析pdf、word2003、Excel2003、word2007、Excel2007、PowerPoint、Text 可用于Lucene

eclipse中配置heritrix的圖文過程----heritrix-1.14.3

Lucene 基本原理

ajax技術學習網址

Ajax學習--網址備忘錄

開放源代碼搜尋引擎

轉：基于lucene實作自己的推薦引擎

基于LUCENE實作自己的推薦引擎

Lucene.net和盤古分詞使用小結

Apache Lucene 5.x 內建中文分詞庫 IKAnalyzer

JFLex使用者手冊中文版安裝與配置運作JFLEX 配置檔案編寫

svn配置權限

MySQL和Lucene索引對比分析1. MySQL索引實作2. Lucene索引實作3. MySQL與Lucence對比參考：

Lucence的基本原理

lucene 關鍵字高亮

專家訪談：搜尋開源力量：Lucene技術前景