https://www.acwing.com/problem/content/833/
KMP算法是用來解決這種字元串比對的一個十分經典的算法
首先 用一個樸素的算法來解決本問題
#include<cstring>
#include<string>
#include<iostream>
#include<cstdio>
using namespace std;
int main(void)
{
int n,m;
string s1,s2;
cin>>n>>s1>>m>>s2;
int ans=0;
for(int i=0;i<m;i++)
{
bool flag=false;
int k=i;
for(int j=0;j<n;j++)
{
if(s1[j]!=s2[k++])
{
flag=true;
break;
}
}
if(!flag) cout<<i<<" ";
}
return 0;
}
樸素做法的流程如下所示:
每次向後移動一位,最壞的時間複雜度是 O(nm) 這種做法一定會逾時的。
由上圖你會發現一個問題就是前面的那一塊其實比對了好幾次,
那麼我們有沒有一種方法可以直接不用比較上一次比對的那一部分呢? 直接比較沒有比較過的。
這樣就大大的減少了時間複雜度避免了浪費。這就是KMP算法
KMP算法
大緻分為如下幾步:
- 求其模式串的next[n]數組
- 用模式串和長文串比對。
next[n] 數組是啥意思? next[i]的定義是非平凡的最大字尾等于最大字首
個人見解這個next表,就是找到每次不比對的時候,之前的字元串的最長字首和最長字尾,然後移動讓最長字首對到最長字尾的位置,這樣就能從不比對的位置判斷,省去了字首的判斷。
next[i]必須要小于i。
例: a b a next[3] 一定小于3
你不能說最長字首是 abc 最長字尾是 abc 都是它自己,然後得出 next[ 3 ] =3 。
這顯然是錯誤的,沒有意義的。
其實你通過上圖你會發現next數組之間的數是有點聯系的。
求 next [ 4 ] 的時候,你隻要判斷新加的字元和之間比對到的後一個字元相不相等:
- 如果相等 故 next [ 4 ] =next [ 3 ] + 1 = j+1
- 如果不相等 則讓 j 回去到 ne[ j ] 直到 j到最開始的零或直到相等。
故模闆如下:
for(int i=2,j=0;i<=n;i++)
// i從2開始 是因為我們的字元串的起始位置是1 而ne[1] =0 不用管故從2開始即可
{
while(j&&p[i]!=p[j+1]) j=ne[j];//新加的字元和之前比對到的後一個字元不相等 就一直回溯到最開始的位置或相等的位置
if(p[i]==p[j+1]) j++;
ne[i]=j;
}
比對
比對的流程你會發現和求next數組的流程近乎一緻。
但是需要注意的是比對的結果不一定就一個,是以當比對成功的時候我們的 j 要回到其最大相等的字首和字尾那裡。
故 : j=ne[ j ] 。
for(int i=1,j=0;i<=m;i++)
{
while(j&&s[i]!=p[j+1]) j=ne[j];
if(s[i]==p[j+1]) j++;
if(j==n)
{
printf("%d,i-n");
j=ne[j];
}
}
完整代碼如下:
#include<cstdio>
#include<iostream>
using namespace std;
const int N=1e5+10,M=1e6+10;
char p[N],s[M];
int ne[N];
int n,m;
int main(void)
{
cin>>n>>p+1>>m>>s+1;
for(int i=2,j=0;i<=n;i++)
{
while(j&&p[i]!=p[j+1]) j=ne[j];
if(p[i]==p[j+1]) j++;
ne[i]=j;
}
for(int i=1,j=0;i<=m;i++)
{
while(j&&s[i]!=p[j+1]) j=ne[j];
if(s[i]==p[j+1]) j++;
if(j==n)
{
j=ne[j];
cout<<i-n<<" ";
}
}
return 0;
}
如果各位還不太懂推薦各位看如下幾個視訊:
https://www.bilibili.com/video/BV1Px411z7Yo
https://www.bilibili.com/video/BV1hW411a7ys