831. KMP字元串【詳解】

2023-03-20 16:08:49

831. KMP字元串【詳解】

https://www.acwing.com/problem/content/833/

KMP算法是用來解決這種字元串比對的一個十分經典的算法

首先用一個樸素的算法來解決本問題

#include<cstring>
#include<string>
#include<iostream>
#include<cstdio>
using namespace std;
int main(void)
{
	int n,m; 
	string s1,s2;
	cin>>n>>s1>>m>>s2;
	int ans=0;
	for(int i=0;i<m;i++)
	{
		bool flag=false;
		int k=i;
		for(int j=0;j<n;j++)
		{
			if(s1[j]!=s2[k++])
			{
				flag=true;
				break;
			}
		}
		if(!flag) cout<<i<<" ";
	}
	return 0;
}

樸素做法的流程如下所示：

831. KMP字元串【詳解】

每次向後移動一位，最壞的時間複雜度是 O(nm) 這種做法一定會逾時的。

由上圖你會發現一個問題就是前面的那一塊其實比對了好幾次，

那麼我們有沒有一種方法可以直接不用比較上一次比對的那一部分呢？直接比較沒有比較過的。

這樣就大大的減少了時間複雜度避免了浪費。這就是KMP算法

KMP算法

大緻分為如下幾步：

求其模式串的next[n]數組
用模式串和長文串比對。

next[n] 數組是啥意思？ next[i]的定義是非平凡的最大字尾等于最大字首

個人見解這個next表，就是找到每次不比對的時候，之前的字元串的最長字首和最長字尾，然後移動讓最長字首對到最長字尾的位置，這樣就能從不比對的位置判斷，省去了字首的判斷。

831. KMP字元串【詳解】

next[i]必須要小于i。

例:   a b a  next[3] 一定小于3

你不能說最長字首是 abc 最長字尾是 abc 都是它自己，然後得出 next[ 3 ] =3 。

這顯然是錯誤的，沒有意義的。

其實你通過上圖你會發現next數組之間的數是有點聯系的。

831. KMP字元串【詳解】

求 next [ 4 ] 的時候，你隻要判斷新加的字元和之間比對到的後一個字元相不相等：

如果相等故 next [ 4 ] =next [ 3 ] + 1 = j+1
如果不相等則讓 j 回去到 ne[ j ] 直到 j到最開始的零或直到相等。

故模闆如下：

for(int i=2,j=0;i<=n;i++)  
// i從2開始   是因為我們的字元串的起始位置是1 而ne[1] =0 不用管故從2開始即可
	{
		while(j&&p[i]!=p[j+1]) j=ne[j];//新加的字元和之前比對到的後一個字元不相等  就一直回溯到最開始的位置或相等的位置
		if(p[i]==p[j+1]) j++; 
		ne[i]=j;
	}

比對

比對的流程你會發現和求next數組的流程近乎一緻。

但是需要注意的是比對的結果不一定就一個，是以當比對成功的時候我們的 j 要回到其最大相等的字首和字尾那裡。

故： j=ne[ j ] 。

for(int i=1,j=0;i<=m;i++)
	{
		while(j&&s[i]!=p[j+1]) j=ne[j];
		if(s[i]==p[j+1]) j++;
		if(j==n)
		{
			printf("%d,i-n");
			j=ne[j];
		}
	}

完整代碼如下：

#include<cstdio>
#include<iostream>
using namespace std;
const int N=1e5+10,M=1e6+10;
char p[N],s[M];
int ne[N];
int n,m;
int main(void)
{
	cin>>n>>p+1>>m>>s+1;
	
	for(int i=2,j=0;i<=n;i++) 
	{
		while(j&&p[i]!=p[j+1]) j=ne[j];
		if(p[i]==p[j+1]) j++;
		ne[i]=j;
	}
	
	for(int i=1,j=0;i<=m;i++)
	{
		while(j&&s[i]!=p[j+1]) j=ne[j];
		if(s[i]==p[j+1]) j++;
		if(j==n)
		{
			j=ne[j];
			cout<<i-n<<" ";
		}
	}
	return 0;
}

如果各位還不太懂推薦各位看如下幾個視訊：

https://www.bilibili.com/video/BV1Px411z7Yo

https://www.bilibili.com/video/BV1hW411a7ys

831. KMP字元串【詳解】

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希

831. KMP字元串 【詳解】

繼續閱讀

831. KMP字元串【詳解】