KMP算法(改進後的字元串比對算法)

kmp算法完成的任務是：給定兩個字元串O和f，長度分别為n和m，判斷f是否在O中出現，如果出現則傳回出現的位置。正常方法是周遊a的每一個位置，然後從該位置開始和b進行比對，但是這種方法的複雜度是O(nm)。kmp算法通過一個O(m)的預處理，使比對的複雜度降為O(n+m)。

這種算法不太容易了解，網上有很多解釋，但讀起來都很費勁。直到讀到Jake Boxer的文章，我才真正了解這種算法。下面，我用自己的語言，試圖寫一篇比較好懂的KMP算法解釋。

　　首先，字元串"BBC ABCDAB ABCDABCDABDE"的第一個字元與搜尋詞"ABCDABD"的第一個字元，進行比較。因為B與A不比對，是以搜尋詞後移一位。

　　因為B與A不比對，搜尋詞再往後移。

　　就這樣，直到字元串有一個字元，與搜尋詞的第一個字元相同為止。

　　接着比較字元串和搜尋詞的下一個字元，還是相同。

　　直到字元串有一個字元，與搜尋詞對應的字元不相同為止。

　　這時，最自然的反應是，将搜尋詞整個後移一位，再從頭逐個比較。這樣做雖然可行，但是效率很差，因為你要把"搜尋位置"移到已經比較過的位置，重比一遍。

　　一個基本事實是，當空格與D不比對時，你其實知道前面六個字元是"ABCDAB"。KMP算法的想法是，設法利用這個已知資訊，不要把"搜尋位置"移回已經比較過的位置，繼續把它向後移，這樣就提高了效率。

　　怎麼做到這一點呢？可以針對搜尋詞，算出一張《部分比對表》（Partial Match Table）。這張表是如何産生的，後面再介紹，這裡隻要會用就可以了。

　　已知空格與D不比對時，前面六個字元"ABCDAB"是比對的。查表可知，最後一個比對字元B對應的"部分比對值"為2，是以按照下面的公式算出向後移動的位數：

　　移動位數 = 已比對的字元數 - 對應的部分比對值

　　因為 6 - 2 等于4，是以将搜尋詞向後移動4位。

　　10.

　　因為空格與Ｃ不比對，搜尋詞還要繼續往後移。這時，已比對的字元數為2（"AB"），對應的"部分比對值"為0。是以，移動位數 = 2 - 0，結果為 2，于是将搜尋詞向後移2位。

　　11.

　　因為空格與A不比對，繼續後移一位。

　　12.

　　逐位比較，直到發現C與D不比對。于是，移動位數 = 6 - 2，繼續将搜尋詞向後移動4位。

　　13.

　　逐位比較，直到搜尋詞的最後一位，發現完全比對，于是搜尋完成。如果還要繼續搜尋（即找出全部比對），移動位數 = 7 - 0，再将搜尋詞向後移動7位，這裡就不再重複了。

　　14.

　　下面介紹《部分比對表》是如何産生的。

　　首先，要了解兩個概念："字首"和"字尾"。 "字首"指除了最後一個字元以外，一個字元串的全部頭部組合；"字尾"指除了第一個字元以外，一個字元串的全部尾部組合。

　　15.

　　"部分比對值"就是"字首"和"字尾"的最長的共有元素的長度。以"ABCDABD"為例，

　　－　"A"的字首和字尾都為空集，共有元素的長度為0；

　　－　"AB"的字首為[A]，字尾為[B]，共有元素的長度為0；

　　－　"ABC"的字首為[A, AB]，字尾為[BC, C]，共有元素的長度0；

　　－　"ABCD"的字首為[A, AB, ABC]，字尾為[BCD, CD, D]，共有元素的長度為0；

　　－　"ABCDA"的字首為[A, AB, ABC, ABCD]，字尾為[BCDA, CDA, DA, A]，共有元素為"A"，長度為1；

　　－　"ABCDAB"的字首為[A, AB, ABC, ABCD, ABCDA]，字尾為[BCDAB, CDAB, DAB, AB, B]，共有元素為"AB"，長度為2；

　　－　"ABCDABD"的字首為[A, AB, ABC, ABCD, ABCDA, ABCDAB]，字尾為[BCDABD, CDABD, DABD, ABD, BD, D]，共有元素的長度為0。

　　16.

　　"部分比對"的實質是，有時候，字元串頭部和尾部會有重複。比如，"ABCDAB"之中有兩個"AB"，那麼它的"部分比對值"就是2（"AB"的長度）。搜尋詞移動的時候，第一個"AB"向後移動4位（字元串長度-部分比對值），就可以來到第二個"AB"的位置。

public class KMPTest {

public static void main(String[] args) {

String string = "abca";

String source = "abccabcababcad";

int[] ii1 = kmpNext(string);

for (int i = 0; i < ii1.length; i++) {

System.out.print(ii1[i] + " ");

}

System.out.println();

kmp(source, string, ii1);

//可找出多個符合要求的串

public static void kmp(String original, String find, int next[]) {

int j = 0;

for (int i = 0; i < original.length(); i++) {

while (j > 0 && original.charAt(i) != find.charAt(j)) {

j = next[j - 1];

if (original.charAt(i) == find.charAt(j))

j++;

if (j == find.length()) {

System.out.println("find at position " + (i - j));

System.out.println(original.subSequence(i - j + 1, i + 1));

// j = 0;

public static int[] kmpNext(String dest) { // aaccaba

int[] next = new int[dest.length()];

next[0] = 0;

for (int i = 1, j = 0; i < dest.length(); i++) {

while (j > 0 && dest.charAt(j) != dest.charAt(i)) {

if (dest.charAt(i) == dest.charAt(j)) {

next[i] = j;

return next;

KMP算法(改進後的字元串比對算法)

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

查找檔案中的字元串

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希