KMP詳解

KMP算法應該是每一本《資料結構》書都會講的，算是知名度最高的算法之一了之後也在很多地方也都經常看到講解KMP算法的文章，看久了好像也知道是怎麼一回事，但總感覺有些地方自己還是沒有完全懂明白。這兩天花了點時間總結一下，有點小體會，我希望可以通過我自己的語言來把這個算法的一些細節梳理清楚，也算是考驗一下自己有真正了解這個算法。

什麼是KMP算法：

KMP是三位大牛：D.E.Knuth、J.H.Morris和V.R.Pratt同時發現的。其中第一位就是《計算機程式設計藝術》的作者！！

KMP算法要解決的問題就是在字元串（也叫主串）中的模式（pattern）定位問題。說簡單點就是我們平時常說的關鍵字搜尋。模式串就是關鍵字（接下來稱它為P），如果它在一個主串（接下來稱為T）中出現，就傳回它的具體位置，否則傳回-1（常用手段）。

首先，對于這個問題有一個很單純的想法：從左到右一個個比對，如果這個過程中有某個字元不比對，就跳回去，将模式串向右移動一位。這有什麼難的？

我們可以這樣初始化：

之後我們隻需要比較i指針指向的字元和j指針指向的字元是否一緻。如果一緻就都向後移動，如果不一緻，如下圖：

A和E不相等，那就把i指針移回第1位（假設下标從0開始），j移動到模式串的第0位，然後又重新開始這個步驟：

基于這個想法我們可以得到以下的程式：

上面的程式是沒有問題的，但不夠好！

如果是人為來尋找的話，肯定不會再把i移動回第1位，因為主串比對失敗的位置前面除了第一個A之外再也沒有A了，我們為什麼能知道主串前面隻有一個A？因為我們已經知道前面三個字元都是比對的！（這很重要）。移動過去肯定也是不比對的！有一個想法，i可以不動，我們隻需要移動j即可，如下圖：

上面的這種情況還是比較理想的情況，我們最多也就多比較了再次。但假如是在主串“SSSSSSSSSSSSSA”中查找“SSSSB”，比較到最後一個才知道不比對，然後i回溯，這個的效率是顯然是最低的。

大牛們是無法忍受“暴力破解”這種低效的手段的，于是他們三個研究出了KMP算法。其思想就如同我們上邊所看到的一樣：“利用已經部分比對這個有效資訊，保持i指針不回溯，通過修改j指針，讓模式串盡量地移動到有效的位置。”

是以，整個KMP的重點就在于當某一個字元與主串不比對時，我們應該知道j指針要移動到哪？

接下來我們自己來發現j的移動規律：

如圖：C和D不比對了，我們要把j移動到哪？顯然是第1位。為什麼？因為前面有一個A相同啊：

如下圖也是一樣的情況：

可以把j指針移動到第2位，因為前面有兩個字母是一樣的：

至此我們可以大概看出一點端倪，當比對失敗時，j要移動的下一個位置k。存在着這樣的性質：最前面的k個字元和j之前的最後k個字元是一樣的。

如果用數學公式來表示是這樣的

P[0 ~ k-1] == P[j-k ~ j-1]

這個相當重要，如果覺得不好記的話，可以通過下圖來了解：

弄明白了這個就應該可能明白為什麼可以直接将j移動到k位置了。

因為:

當T[i] != P[j]時

有T[i-j ~ i-1] == P[0 ~ j-1]

由P[0 ~ k-1] == P[j-k ~ j-1]

必然：T[i-k ~ i-1] == P[0 ~ k-1]

公式很無聊，能看明白就行了，不需要記住。

這一段隻是為了證明我們為什麼可以直接将j移動到k而無須再比較前面的k個字元。

好，接下來就是重點了，怎麼求這個（這些）k呢？因為在P的每一個位置都可能發生不比對，也就是說我們要計算每一個位置j對應的k，是以用一個數組next來儲存，next[j] = k，表示當T[i] != P[j]時，j指針的下一個位置。

很多教材或博文在這個地方都是講得比較含糊或是根本就一筆帶過，甚至就是貼一段代碼上來，為什麼是這樣求？怎麼可以這樣求？根本就沒有說清楚。而這裡恰恰是整個算法最關鍵的地方。

這個版本的求next數組的算法應該是流傳最廣泛的，代碼是很簡潔。可是真的很讓人摸不到頭腦，它這樣計算的依據到底是什麼？

好，先把這個放一邊，我們自己來推導思路，現在要始終記住一點，next[j]的值（也就是k）表示，當P[j] != T[i]時，j指針的下一步移動位置。

先來看第一個：當j為0時，如果這時候不比對，怎麼辦？

像上圖這種情況，j已經在最左邊了，不可能再移動了，這時候要應該是i指針後移。是以在代碼中才會有next[0] = -1;這個初始化。

如果是當j為1的時候呢？

顯然，j指針一定是後移到0位置的。因為它前面也就隻有這一個位置了~~~

下面這個是最重要的，請看如下圖：

請仔細對比這兩個圖。

我們發現一個規律：

當P[k] == P[j]時，

有next[j+1] == next[j] + 1

其實這個是可以證明的：

因為在P[j]之前已經有P[0 ~ k-1] == p[j-k ~ j-1]。（next[j] == k）

這時候現有P[k] == P[j]，我們是不是可以得到P[0 ~ k-1] + P[k] == p[j-k ~ j-1] + P[j]。

即：P[0 ~ k] == P[j-k ~ j]，即next[j+1] == k + 1 == next[j] + 1。

這裡的公式不是很好懂，還是看圖會容易了解些。

那如果P[k] != P[j]呢？比如下圖所示：

像這種情況，如果你從代碼上看應該是這一句：k = next[k];為什麼是這樣子？你看下面應該就明白了。

現在你應該知道為什麼要k = next[k]了吧！像上邊的例子，我們已經不可能找到[ A，B，A，B ]這個最長的字尾串了，但我們還是可能找到[ A，B ]、[ B ]這樣的字首串的。是以這個過程像不像在定位[ A，B，A，C ]這個串，當C和主串不一樣了（也就是k位置不一樣了），那當然是把指針移動到next[k]啦。

有了next數組之後就一切好辦了，我們可以動手寫KMP算法了：

和暴力破解相比，就改動了4個地方。其中最主要的一點就是，i不需要回溯了。

最後，來看一下上邊的算法存在的缺陷。來看第一個例子：

顯然，當我們上邊的算法得到的next數組應該是[ -1，0，0，1 ]

是以下一步我們應該是把j移動到第1個元素咯：

不難發現，這一步是完全沒有意義的。因為後面的B已經不比對了，那前面的B也一定是不比對的，同樣的情況其實還發生在第2個元素A上。這時候應該從頭比對。

顯然，發生問題的原因在于P[j] == P[next[j]]。

是以我們也隻需要添加一個判斷條件即可：

KMP詳解

繼續閱讀

goalng nil interface淺析持續學習

模組化：數學模組化

開源軟體：NoSql資料庫 - 圖資料庫 Neo4j轉載自原文位址：http://www.cnblogs.com/loveis715/p/5277051.html

資料在網絡7層中的傳輸過程

當今世界十大經典算法

字元串功能實作

【算法提高班】貪婪政策

《貪婪的動态規劃》

分治法實作求解最大子數組

UVA 10154:Weights and Measures Weights and Measures

Linux Kernel Development　學習

動态規劃、最小費用流例題 — nyoj_712 探尋寶藏

計算機開路人阿蘭·圖靈

基礎算法之二分查找

poj3249

PAT 1089 Insert or Merge[難]