本节书摘来自华章社区《clojure数据分析秘笈》一书中的第2章,第2.10节修正拼写错误,作者(美)eric rochester,更多章节内容可以访问云栖社区“华章社区”公众号查看
2.10 修正拼写错误
拼写错误是某些时间需要处理的问题。特别是当你试图处理原始的文本数据时,拼写错误会对你的工作造成较大影响。

上述结果解释了原因。transpose没有在训练集中出现过,elder的出现次数比editor两倍还多,因此上述结果是基于训练集的拼写修正。
2.10.3 实现原理
核心函数是edits-1和known-edits-2。它们在字符串空间上执行查询,寻找与被检查的单词的编辑距离是1或2的那些已知单词(在测试集中出现过的单词)。在执行操作之前,单词由split-word函数一分为二。可以组成一次编辑操作(edit)的处理过程由以下一系列函数定义:
delete-char:从一个单词中删除一个字母(例如,word转换为wod)。
transpose-char:交换两个字母的顺序(例如,word转换为wrod)。
replace-split:使用字母表中的另一个字母替换一个字母(例如,word转换为wobd)。
insert-split:向单词中插入一个字母(例如,word转换为wobrd)。
correct函数查看所有在训练集中出现过的返回的编辑操作,并从中选出频率最高的那个。
2.10.4 更多信息