搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一
个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母
集,分词的过程就是遍历匹配的过程。具体代码如下:
测试:
输入:woaibeijintiananmen
输出:wo ai bei jin tian an men
=============================
输入:sousuozhongdefenciqiyouhenduozhong
输出:sou suo zhong de fen ci qi you hen duo zhong