計算字元串相似度的簡易算法

算法設計背景：

最近設計知識管理系統的資源導入功能，為了盡量的做到元件化，友善擴充，友善其他子產品使用。簡化元件提供的和需要的接口，設計并實作了基于 Mapping 機制的導入架構。其中有一功能用到了計算兩個字元串相似度的算法，簡單設計如下以便參考：

設計思想：

把兩個字元串變成相同的基本操作定義如下：

1. 修改一個字元（如把 a 變成 b）

2. 增加一個字元 (如 abed 變成 abedd)

3. 删除一個字元（如 jackbllog 變成 jackblog）

針對于 jackbllog到jackblog 隻需要删除一個或增加一個 l 就可以把兩個字元串變為相同。把這種操作需要的次數定義為兩個字元串的距離 L, 則相似度定義為 1/(L+1) 即距離加一的倒數。那麼jackbllog和jackblog的相似度為1/1+1=1/2=0.5 也就是所兩個字元串的相似度是 0.5，說明兩個字元串已經很接近啦。

任意兩個字元串的距離都是有限的，都不會超過他們的長度之和，算法設計中我們并不在乎通過一系列的修改後，得到的兩個相同字元串是什麼樣子。是以每次隻需一步操作，并遞歸的進行下一計算。JAVA 的實作如下：

計算字元串相似度的簡易算法

/**

計算字元串相似度的簡易算法

package org.blogjava.arithmetic;

計算字元串相似度的簡易算法

import java.util.HashMap;

計算字元串相似度的簡易算法

import java.util.Map;

計算字元串相似度的簡易算法

* @author jack.wang

計算字元串相似度的簡易算法

public class StringDistance {

計算字元串相似度的簡易算法

public static final Map<String, String> DISTANCE_CACHE = new HashMap<String, String>();

計算字元串相似度的簡易算法

private static int caculateStringDistance(byte[] firstStr, int firstBegin,

計算字元串相似度的簡易算法

int firstEnd, byte[] secondStr, int secondBegin, int secondEnd) {

計算字元串相似度的簡易算法

String key = makeKey(firstStr, firstBegin, secondStr, secondBegin);

計算字元串相似度的簡易算法

if (DISTANCE_CACHE.get(key) != null) {

計算字元串相似度的簡易算法

return Integer.parseInt(DISTANCE_CACHE.get(key));

計算字元串相似度的簡易算法

} else {

計算字元串相似度的簡易算法

if (firstBegin >= firstEnd) {

計算字元串相似度的簡易算法

if (secondBegin >= secondEnd) {

計算字元串相似度的簡易算法

return 0;

計算字元串相似度的簡易算法

} else {

計算字元串相似度的簡易算法

return secondEnd - secondBegin + 1;

計算字元串相似度的簡易算法

}

計算字元串相似度的簡易算法

}

計算字元串相似度的簡易算法

if (secondBegin >= secondEnd) {

計算字元串相似度的簡易算法

if (firstBegin >= firstEnd) {

計算字元串相似度的簡易算法

return firstEnd - firstBegin + 1;

計算字元串相似度的簡易算法

if (firstStr[firstBegin] == secondStr[secondBegin]) {

計算字元串相似度的簡易算法

return caculateStringDistance(firstStr, firstBegin + 1,

計算字元串相似度的簡易算法

firstEnd, secondStr, secondBegin + 1, secondEnd);

計算字元串相似度的簡易算法

} else {

計算字元串相似度的簡易算法

int oneValue = caculateStringDistance(firstStr, firstBegin + 1,

計算字元串相似度的簡易算法

firstEnd, secondStr, secondBegin + 2, secondEnd);

計算字元串相似度的簡易算法

int twoValue = caculateStringDistance(firstStr, firstBegin + 2,

計算字元串相似度的簡易算法

int threeValue = caculateStringDistance(firstStr,

計算字元串相似度的簡易算法

firstBegin + 2, firstEnd, secondStr, secondBegin + 2,

計算字元串相似度的簡易算法

secondEnd);

計算字元串相似度的簡易算法

DISTANCE_CACHE.put(key, String.valueOf(min(oneValue, twoValue,

計算字元串相似度的簡易算法

threeValue) + 1));

計算字元串相似度的簡易算法

return min(oneValue, twoValue, threeValue) + 1;

計算字元串相似度的簡易算法

}

計算字元串相似度的簡易算法

}

計算字元串相似度的簡易算法

public static float similarity(String stringOne, String stringTwo) {

計算字元串相似度的簡易算法

return 1f / (caculateStringDistance(stringOne.getBytes(), 0, stringOne

計算字元串相似度的簡易算法

.getBytes().length - 1, stringTwo.getBytes(), 0, stringOne

計算字元串相似度的簡易算法

.getBytes().length - 1) + 1);

計算字元串相似度的簡易算法

private static int min(int oneValue, int twoValue, int threeValue) {

計算字元串相似度的簡易算法

return oneValue > twoValue ? twoValue

計算字元串相似度的簡易算法

: oneValue > threeValue ? threeValue : oneValue;

計算字元串相似度的簡易算法

private static String makeKey(byte[] firstStr, int firstBegin,

計算字元串相似度的簡易算法

byte[] secondStr, int secondBegin) {

計算字元串相似度的簡易算法

StringBuffer sb = new StringBuffer();

計算字元串相似度的簡易算法

return sb.append(firstStr).append(firstBegin).append(secondStr).append(

計算字元串相似度的簡易算法

secondBegin).toString();

計算字元串相似度的簡易算法

/**

計算字元串相似度的簡易算法

* @param args

計算字元串相似度的簡易算法

public static void main(String[] args) {

計算字元串相似度的簡易算法

float i = StringDistance.similarity("jacklovvedyou", "jacklodveyou");

計算字元串相似度的簡易算法

System.out.println(i);

計算字元串相似度的簡易算法

}

計算字元串相似度的簡易算法

計算字元串相似度的簡易算法

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希