布爾檢索模型
布爾檢索法是指利用布爾運算符連接配接各個檢索詞,然後由計算機進行邏輯運算,找出所需資訊的一種檢索方法。
布爾檢索模型中主要有AND、OR、NOT三種邏輯運算,布爾邏輯運算符的作用是把檢索詞連接配接起來,構成一個邏輯檢索式。
tf-idf中文稱為詞頻-逆文檔頻率
用以計算詞項對于一個文檔集或一個語料庫中的一份檔案的重要程度。
舉個例子,一篇3000字的文章中詞語“足球”出現了3次,我們很難斷定這篇文章就是和足球相關的,但是一篇140字的微網誌中同樣出現三次“足球”,基本可以斷定微網誌内容和足球有關。
分詞器
<code>Analyzer analyzer = new StandardAnalyzer();</code>
标準分詞:class org.apache.lucene.analysis.standard.StandardAnalyzer 中|華|人|民|共|和|國|簡|稱|中|國|是|一|個|有|13|億|人|口|的|國|家|
空格分詞:class org.apache.lucene.analysis.core.WhitespaceAnalyzer 中華人民共和國簡稱中國,|是一個有13億人口的國家|
簡單分詞:class org.apache.lucene.analysis.core.SimpleAnalyzer 中華人民共和國簡稱中國|是一個有|億人口的國家|
二分法分詞:class org.apache.lucene.analysis.cjk.CJKAnalyzer 中華|華人|人民|民共|共和|和國|國簡|簡稱|稱中|中國|是一|一個|個有|13|億人|人口|口的|的國|國家|
關鍵字分詞:class org.apache.lucene.analysis.core.KeywordAnalyzer 中華人民共和國簡稱中國, 是一個有13億人口的國家|