天天看点

一种拼音分词器的JAVA实现

搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一

个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母

集,分词的过程就是遍历匹配的过程。具体代码如下:

测试:

输入:woaibeijintiananmen

输出:wo ai bei jin tian an men

=============================

输入:sousuozhongdefenciqiyouhenduozhong

输出:sou suo zhong de fen ci qi you hen duo zhong

上一篇: 配置IPV6地址
下一篇: 图解JavaScript