【資料結構與算法】-＞算法-＞AC自動機-＞敏感詞過濾功能要如何實作？

AC 自動機

- Ⅰ 前言
- Ⅱ 用 Trie 樹實作敏感詞過濾
- Ⅲ AC 自動機原理及實作
- Ⅳ 敏感詞過濾系統的實作

Ⅰ 前言

很多支援使用者發表文本内容的網站或者軟體，大都會有敏感詞過濾功能，用來過濾掉使用者輸入的一些淫穢、反動、謾罵等内容，這個功能是怎麼實作的呢？

其實，這些功能的最基本的原理就是字元串比對算法，也就是通過維護一個敏感詞的詞典，當使用者輸入的一段文字後，通過字元串比對算法，來查找使用者輸入的這段文字，是否包含敏感詞，如果有，就用 * 把它替代掉。

我在之前的文章中，講過很多種字元串比對算法，它們都可以處理這個問題，但是，對于通路量巨大的網站來說，比如淘寶，使用者每天的評論數有幾億甚至幾十億。這個時候，我們對敏感詞過濾系統的性能要求就要很高。如果，一個使用者輸入内容之後要幾秒後才能發出去，那這個軟體可能就沒人用了。

要實作一個高性能的敏感詞過濾系統，就要用到我們這篇文章要講的多模式串比對算法。

在以前的文章裡，我講了四個單模式串比對算法，還有一個多模式串比對算法就是 Trie 樹。有興趣的同學可以跳轉過去看。

【資料結構與算法】-＞算法-＞字元串比對基礎（上）-＞BF 算法 & RK 算法

【資料結構與算法】-＞算法-＞字元串比對基礎（中）-＞BM算法-＞KMP 三倍性能的強大算法

【資料結構與算法】-＞算法-＞字元串比對基礎（下）-＞KMP 算法

【資料結構與算法】-＞資料結構-＞Trie樹-＞如何實作搜尋引擎的關鍵詞提示功能？

Ⅱ 用 Trie 樹實作敏感詞過濾

再總結一下這兩個概念，單模式串比對算法，就是一個模式串和一個主串之間進行比對，也就是在一個主串中查找一個模式串。多模式串比對算法，就是在多個模式串中和一個主串之間做比對，也就是說，在一個主串中查找多個模式串。

盡管，單模式串比對算法也能完成多模式串比對的工作，比如過濾敏感詞，我們可以針對每個敏感詞，通過但模式比對算法（比如 KMP 算法）與使用者輸入的文字内容進行比對。但是，這樣做的話，每個比對過程都需要掃描一遍使用者輸入的内容。整個過程下來就要掃描很多遍使用者輸入的内容。如果敏感詞很多，假如有上千個字元，那我們就要掃描幾千遍這樣的輸入内容。很顯然，這樣的處理思路比較低效。

與單模式串比對算法相比，多模式比對算法在這個問題的處理上就很高效了。它隻需要掃描一遍主串，就能在主串中一次性查找多個模式串是否存在，進而大大提高比對效率。我們知道，Trie 樹就是一種多模式串比對算法，是以我們可以用 Trie 樹來實作敏感詞過濾功能。

我們可以對敏感詞字典進行預處理，建構成 Trie 樹結構。這個預處理的操作隻需要做一次，如果敏感詞字典動态更新了，比如删除、添加了一個敏感詞，那我們隻需要動态更新一下 Trie 樹就可以了。

當使用者輸入一個文本内容後，我們把使用者輸入的内容作為主串，從第一個字元開始，在 Trie 樹中比對。當比對到 Trie 樹的葉子節點，或者中途遇到不比對字元的時候，我們将主串的開始比對位置後移一位，也就是從第一個字元的下一個字元開始，重新在 Trie 樹中比對。

基于 Trie 樹的這種處理方法，有點類似單模式串比對中的 BF 算法。我們知道，單模式串比對算法中，KMP 算法對 BF 算法進行改進，引入了一個 next 數組，讓比對失效時，盡可能将模式串往後多移動幾位。借鑒單模式串的優化改進方法，能否對多模式串 Trie 樹進行改進，進一步提高 Trie 樹的效率呢？這就要用到 AC 自動機算法了。

Ⅲ AC 自動機原理及實作

AC 自動機算法，全稱是 Aho-Corasick 算法。其實， Trie 樹跟 AC 自動機之間的關系，就像單模式串比對中樸素的串比對算法（BF）和 KMP 算法之間的關系一樣，隻不過前者針對的是多模式串而已。是以，AC 自動機實際上就是在 Trie 樹之上，加了類似 KMP 算法的 next 數組，隻不過此處的 next 數組建構在樹上。用代碼實作就是下面的樣子👇

class AcNode {
		char data;
		AcNode[] children = new AcNode[SIZE];
		boolean isEndingChar = false;
		int length = -1; 	//當isEndingChar = true時。記錄模式串長度
		AcNode fail;	//失敗指針
		
		AcNode(char data) {
			this.data = data;
		}
	}

是以 AC 自動機的建構，包含兩個操作：

将多個模式串建構成 Trie 樹；
在 Trie 樹上建構失敗指針（相當于 KMP 中的失效函數 next 數組）。