KMP字元串比對算法了解

KMP算法

一種字元串比對算法，尋找存在于長字元串中的子串，由Knuth、Morris、Pratt三個同時提出來。

算法的基本思路是：

假設有序列seq(長度為m)和子序列subseq(長度為n)，

首先周遊序列seq，找到subseq[0]第一次出現在seq中的位置k；

然後順次比較subseq[j](0<j<n)與seq[i](k<i<m), 即比較以subseq[0]開頭長度為j的序列subseq[0,j]

和以seq[i-1]結尾長度為j的序列seq[i-j,i](此處之是以選擇用i而不是k來描述seq的片段，是想通過序列片段

而不是單個字元進行移動，繼而減少移動次數)：

若在j==n-1時，每個元素都相等，則定位了一個子序列，重複上面的過程即可找到所有子序列的分布位置，

若對某一特定的j(0<j<n)使得subseq[j] <> seq[i]，這時則宣告最初找到的k不合意（應該後移），無法繼續

延伸，這時需要調整j的值，繼而影響到k的值。為了調整後，依然滿足subseq[0,j'] == subseq[i-j',i]，就

要求j'應該滿足subseq[0,j']==subseq[j-j',j]，同時最佳j'應該是滿足這個條件的最大值且j' <> j，使

得能繼續參與比對的序列最長。當然也存在不能找到合适的j'的情況，這時另j'等于0，而增加i的值直到再次碰到

subseq[0]。同時，我們可以看到j'的取值隻取決于subseq，是以我們可以提前建構出這樣一個索引數組來指導錯誤比對之後的移動。

索引數組index的建構：

索引數組的建構就是對字元串進行自我掃描的過程，每個值都可以遞歸的由其前一個位的值得出。

假設index[j-1] = k, 隻要index[k] == index[j]，index[j] = index[j-1]+1, 因為index[0,k] = index[j-k,j]，是以index[0,k+1] == index[j-k, j+1]。若index[k] != index[j]，這時可以回溯到index[index[j-1]，若依然不滿足則遞歸index[index[index[j-1]]，直到滿足或取值為0，由此得到index數組。

假設seq = 'abaebacddebacdbace', subseq = 'bace'.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

a b a e b a c d d e b a c d b a c e

b a c e

0 1 2 3

當k=1時，subseq[0] == seq[k],

然後subseq[1] == seq[2], subseq[2] != seq[3], 這時需要調整j的值，使得subseq[0,j']依然等同于

seq[i-j'+1,i], 這就使得j'要滿足使得subseq[0,j]的前j'的字母和後j'個字母完全相同，由于沒有合适的,

j'取值0，此時繼續增大i的值直到再次在seq裡遇到subseq[0]，重複以上過程。這個例子比較特殊沒有利用到算法的優勢。

若子序列不存在重複，用KMP算法和用下面的一個bruteforce程式效果應該相差不大, 另外python的find和index在處理字元串時速度也很可觀。

另一個例子是matrix67上的，大家可過去參考下。

參考：http://www.matrix67.com/blog/archives/115

http://stackoverflow.com/questions/425604/best-way-to-determine-if-a-sequence-is-in-another-sequence-in-python

---------------------------

Bruteforce mathod：

---------------------------

def index(subseq, seq):

'''

index(subseq, seq) -->a list of numbers or -1

Return an index of [subseq] in the [seq].

Or -1 if [subseq] is not a subsequence of [seq].

The time complexity of the algorithm is O(n*m), where

n, m = len(seq), len(subseq).

>>>index('12', '0112')

[2]

>>>index([1,2], [011212])

[2, 4]

>>>index('13', '0112')

-1

'''

i, n, m = -1, len(seq), len(subseq)

index = []

try:

while True:

i = seq.index(subseq[0], i+1, n - m + 1)

if subseq == seq[i:i+m]:

index.append(i)

except ValueError:

return index if len(index) > 0 else -1

def subseqInSeq(subseq, seq):

'''

subseqInSeq(subseq, seq) ---> list or -1

The same as index.

'''

indexList = []

m = len(subseq)

subseqRepla = '*' * m

while subseq[0] in seq:

index = seq.index(subseq[0])

if subseq == seq[index:index+m]:

indexList.append(index)

seq = seq.replace(subseq, subseqRepla, 1)

else:

seq = seq.replace(subseq[0], '*', 1)

return (indexList if len(indexList) > 0 else -1)

def main():

print index('ab', 'abcdab')

print subseqInSeq('ab', 'abcdab')

------------------------------------------------------------

KMP

def compute_prefix_function(p):

m = len(p)

pi = [0] * m

k = 0

for q in range(1, m):

while k > 0 and p[k] != p[q]:

k = pi[k - 1]

if p[k] == p[q]:

k = k + 1

pi[q] = k

return pi

def kmp_matcher(t, p):

n = len(t)

m = len(p)

pi = compute_prefix_function(p)

q = 0

for i in range(n):

while q > 0 and p[q] != t[i]:

q = pi[q - 1]

if p[q] == t[i]:

q = q + 1

if q == m:

return i - m + 1

return -1

KMP字元串比對算法了解

繼續閱讀

一道某高大上網際網路公司的筆試題分享

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無元件上傳圖檔到資料庫中，最完整解決方案

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Linux裝置模型（中）之上層容器

hdu7108哈希