计算字符串的相似度（编辑距离）

问题

许多程序会大量使用字符串。对于不同的字符串，我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为：

1.修改一个字符（如把“a”替换为“b”）。

2.增加一个字符（如把“abdd”变为“aebdd”）。

3.删除一个字符（如把“travelling”变为“traveling”）。

比如，对于“abcdefg”和“abcdef”两个字符串来说，我们认为可以通过增加/减少一个“g“的方式来达到目的。上面的两种方案，都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的距离，给定任意两个字符串，你是否能写出一个算法来计算出它们的距离？

分析与解法

不难看出，两个字符串的距离肯定不超过它们的长度之和（我们可以通过删除操作把两个串都转化为空串）。虽然这个结论对结果没有帮助，但至少可以知道，任意两个字符串的距离都是有限的。

我们还是应该集中考虑如何才能把这个问题转化成规模较小的同样的问题。如果有两个串a=xabcdae和b=xfdfa，它们的第一个字符是相同的，只要计算a[2,…,7]=abcdae和b[2,…,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同，那么可以进行如下的操作（lena和lenb分别是a串和b串的长度）：

1．删除a串的第一个字符，然后计算a[2,…,lena]和b[1,…,lenb]的距离。

2．删除b串的第一个字符，然后计算a[1,…,lena]和b[2,…,lenb]的距离。

3．修改a串的第一个字符为b串的第一个字符，然后计算a[2,…,lena]和b[2,…,lenb]的距离。

4．修改b串的第一个字符为a串的第一个字符，然后计算a[2,…,lena]和b[2,…,lenb]的距离。

5．增加b串的第一个字符到a串的第一个字符之前，然后计算a[1,…,lena]和b[2,…,lenb]的距离。

6．增加a串的第一个字符到b串的第一个字符之前，然后计算a[2,…,lena]和b[1,…,lenb]的距离。

在这个题目中，我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以，可以将上面6个操作合并为：

1.一步操作之后，再将a[2,…,lena]和b[1,…,lenb]变成相同字符串。

2.一步操作之后，再将a[1,…,lena]和b[2,…,lenb]变成相同字符串。

3.一步操作之后，再将a[2,…,lena]和b[2,…,lenb]变成相同字符串。

这样，很快就可以完成一个递归程序。

代码实现：

以上解法来自《编程之美》，有什么地方需要改进的呢？问题在于：在递归的过程中，有些数据被重复计算了。

很经典的可使用动态规划方法解决的题目，和计算两字符串的最长公共子序列相似。

设ai为字符串a(a1a2a3 … am)的前i个字符（即为a1,a2,a3 … ai）

设bj为字符串b(b1b2b3 … bn)的前j个字符（即为b1,b2,b3 … bj）

设 l(i,j)为使两个字符串和ai和bj相等的最小操作次数。

当ai==bj时显然 l(i,j) = l(i-1,j-1)

当ai!=bj时

　　若将它们修改为相等，则对两个字符串至少还要操作l(i-1,j-1)次

　若删除ai或在bj后添加ai，则对两个字符串至少还要操作l(i-1,j)次

　若删除bj或在ai后添加bj，则对两个字符串至少还要操作l(i,j-1)次

　此时l(i,j) = min( l(i-1,j-1), l(i-1,j), l(i,j-1) ) + 1

显然，l(i,0)=i，l(0,j)=j, 再利用上述的递推公式，可以直接计算出l(i,j)值。

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

http://www.cnblogs.com/luxiaoxun/archive/2012/08/05/2623894.html

计算字符串的相似度（编辑距离）

继续阅读

开源低带宽语音编解码器

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

[HTML5]自定义属性 data-* 和 jQuery.data 详解

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

C++ 第十五周报告1--《冒泡法排序》

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

无人机--飞控科普

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希