天天看点

solr 的分析器,分词器和分词过滤器(2)

5.  solr.HTMLStripWhitespaceTokenizerFactory

从结果中出去HTML标签,将结果交给WhitespaceTokenizer处理。

例子:

my <a href="www.foo.bar" target="_blank" rel="external nofollow" >link</a> my link
<?xml?><br>hello<!--comment--> hello
hello<script><-- f('<--internal--></script>'); --></script> hello
if a<b then print a; if a<b then print a;
hello <td height=22 nowrap align="left"> hello
a&lt;b &#65 Alpha&Omega &Omega; a<b A Alpha&Omega Ω

6.  solr.HTMLStripStandardTokenizerFactory

从结果中出去HTML标签,将结果交给StandardTokenizer处理。

7.  solr.PatternTokenizerFactory

说明:按照规则表达式样式对分本进行分词。

例子:处理对象为,mice; kittens; dogs,他们由分号加上一个或多个的空格分隔。

<fieldType name="semicolonDelimited" class="solr.TextField">

      <analyzer>

        <tokenizer class="solr.PatternTokenizerFactory" pattern="; *" />

      </analyzer>

   </fieldType>

--------------------------------------------------------------------

Solr有哪些TokenFilterFactories?

-------------------------------------------------------------------

1.  solr.StandardFilterFactory

创建:org.apache.lucene.analysis.standard.StandardFilter.

说明:移除首字母简写中的点和Token后面的’s。仅仅作用于有类的Token,他们是由StandardTokenizer产生的。

例子:StandardTokenizer+ StandardFilter

"I.B.M. cat's can't" ==> "IBM", "cat", "can't"

2.  solr.LowerCaseFilterFactory

创建:org.apache.lucene.analysis.LowerCaseFilter.

3.       solr.TrimFilterFactory【solr1.2】

创建:org.apache.solr.analysis.TrimFilter

说明:去掉Token两端的空白符

例子:

 " Kittens!   ", "Duck" ==> "Kittens!", "Duck".

4.    solr.StopFilterFactory

创建:org.apache.lucene.analysis.StopFilter

说明:去掉如下的通用词,多为虚词。

   "a", "an", "and", "are", "as", "at", "be", "but", "by",

    "for", "if", "in", "into", "is", "it",

    "no", "not", "of", "on", "or", "s", "such",

    "t", "that", "the", "their", "then", "there", "these",

    "they", "this", "to", "was", "will", "with"

自定义的通用词表的使用可以通过schema.xml文件中的"words"属性来指定,如下。

<fieldtype name="teststop" class="solr.TextField">

   <analyzer>

     <tokenizer class="solr.LowerCaseTokenizerFactory"/>

     <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>

   </analyzer>

</fieldtype>

5.       solr.KeepWordFilterFactory【solr1.3】

创建:org.apache.solr.analysis.KeepWordFilter

说明:作用与solr.StopFilterFactory相反,保留词的列表也可以通过”word”属性进行指定。

<fieldtype name="testkeep" class="solr.TextField">

   <analyzer>

     <filter class="solr.KeepWordFilterFactory" words="keepwords.txt" ignoreCase="true"/>

   </analyzer>

</fieldtype>

6.       solr.LengthFilterFactory

创建:solr.LengthFilter

说明:过滤掉长度在某个范围之外的词。范围设定方式见下面。

<fieldtype name="lengthfilt" class="solr.TextField">

  <analyzer>

    <tokenizer class="solr.WhitespaceTokenizerFactory"/>

    <filter class="solr.LengthFilterFactory" min="2" max="5" />

  </analyzer>

</fieldtype>

7.  solr.PorterStemFilterFactory

创建:org.apache.lucene.analysis.PorterStemFilter

说明:采用Porter Stemming Algorithm算法去掉单词的后缀,例如将复数形式变成单数形式,第三人称动词变成第一人称,现在分词变成一般现在时的动词。

8.  solr.EnglishPorterFilterFactory

创建:solr.EnglishPorterFilter

说明:关于句子主干的处理,其中的"protected"指定不允许修改的词的文件。

9.  solr.SnowballPorterFilterFactory

说明:关于不同语言的词干处理

10.solr.WordDelimiterFilterFactory

说明:关于分隔符的处理。

11.solr.SynonymFilterFactory

说明:关于同义词的处理。

12.solr.RemoveDuplicatesTokenFilterFactory

说明:避免重复处理。

-------------------------------------------------------------------

.声明:原创文章,严禁转载。