正規表達式比對不包含某些字元串的技巧

這篇文章主要介紹了正規表達式比對不包含某些字元串的技巧,詳細分解了應該怎麼做和這麼做的原因,需要的朋友可以參考下

經常我們會遇到想找出不包含某個字元串的文本，程式員最容易想到的是在正規表達式裡使用，^(hede)來過濾”hede”字串，但這種寫法是錯誤的。我們可以這樣寫：[^hede]，但這樣的正規表達式完全是另外一個意思，它的意思是字元串裡不能包含‘h'，‘e'，‘d'三個但字元。那什麼樣的正規表達式能過濾出不包含完整“hello”字串的資訊呢？

事實上，說正規表達式裡不支援逆向比對并不是百分之百的正确。就像這個問題，我們就可以使用否定式查找來模拟出逆向比對，進而解決我們的問題：

^((?!hede).)*$

上面這個表達式就能過濾出不包含‘hede'字串的資訊。我上面也說了，這種寫法并不是正規表達式“擅長”的用法，但它是可以這樣用的。

解釋

一個字元串是由n個字元組成的。在每個字元之前和之後，都有一個空字元。這樣，一個由n個字元組成的字元串就有n+1個空字元串。我們來看一下“ABhedeCD”這個字元串：

正規表達式比對不包含某些字元串的技巧

所有的e編号的位置都是空字元。表達式(?!hede).會往前查找，看看前面是不是沒有“hede”字串，如果沒有(是其它字元)，那麼.(點号)就會比對這些其它字元。這種正規表達式的“查找”也叫做“zero-width-assertions”(零寬度斷言)，因為它不會捕獲任何的字元，隻是判斷。

在上面的例子裡，每個空字元都會檢查其前面的字元串是否不是‘hede'，如果不是，這.(點号)就是比對捕捉這個字元。表達式(?!hede).隻執行一次，是以，我們将這個表達式用括号包裹成組(group)，然後用*(星号)修飾——比對0次或多次：

你可以了解，正規表達式((?!hede).)*比對字元串"ABhedeCD"的結果false，因為在e3位置，(?!hede)比對不合格，它之前有"hede"字元串，也就是包含了指定的字元串。

在正規表達式裡， ?! 是否定式向前查找，它幫我們解決了字元串“不包含”比對的問題。

以下是一些補充：

分享下php生成随機數的三種方法，生成1-10之間的不重複随機數，php生成不重複随機數的例子，需要的朋友參考下。

在hacker news上看到regex golf，幾道很有趣的正規表達式的題，有的需要用到不比對這種比對，比如需要比對不包含某個單詞的串。

開始正題之前，先來看看正規表達式的文法：

[abc] a或b或c . 任意單個字元 a? 零個或一個a

[^abc] 任意不是abc的字元 \s 空格 a* 零個或多個a

[a-z] a-z的任意字元 \S 非空格 a+ 一個或多個a

[a-zA-Z] a-z或A-Z \d 任意數字 a{n} 正好出現n次a

^ 一行開頭 \D 任意非數字 a{n,} 至少出現n次a

$ 一行末尾 \w 任意字母數字或下劃線 a{n,m} 出現n-m次a

(...) 括号用于分組 \W 任意非字母數字或下劃線 a*? 零個或多個a(非貪婪)

(a|b) a或b \b 單詞邊界 (a)...\1 引用分組

(?=a) 前面有a (?!a) 前面沒有a \B 非單詞邊界

正規表達式中有(?=a)和(?!a)來表示我們是否需要比對某個東西。

是以，有需要不比對某樣内容時，就可以用(?!a)了。比如要比對不含hello的字元串就可以這樣寫。

^(?!.*hello)

這裡.*用來表示hello之前可能有其他的字元，為什麼還要加^呢，因為如果不加的話，可能比對到h之後的這個位置上了。

現在就可以解決regex golf上的abba這道題了。

這道題是去比對不含abba這種形式的單詞，比如abba，anallagmatic就不應該比對上。

正規表達式代碼：

^(?!.*(.)(.)\2\1)

然後利用不比對，還可以解決prime這道題，這道題比對有素數個x的串，先看正則。

^(?!(xx+)\1+$)

(xx+)是比對2個及2個以上的x，(xx+)\1+就是比對重複出現2個及以上的串，是以(xx+)\1+就表示了那些非素數的串，那麼素數串就是除去這些非素數串，即是以上的正規表達式了。

正規表達式比對不包含某些字元串的技巧

繼續閱讀

利用Python進行簡單爬蟲（爬取豆瓣《湮滅》短評）寫在最前爬蟲正規表達式比對做法BeautifulSoup做法最後

pyquery爬取天蠶洋芋經典玄幻三部曲鬥破蒼穹：武動乾坤：大主宰：

Python 爬蟲實戰: 爬取并下載下傳CSDN文章

C# 正規表達式詳解（學習心得 25）一、轉義字元二、字元類三、定位點四、分組構造五、限定符六、反向引用構造七、備用構造八、替換九、雜項構造十、Regex 類

C#發送電子郵件 (異步)

Boost學習之XML解析

QT實作資料總管總結

如何配置Eclipse進行Perl開發

一個不錯的 js 校驗

python 正則判斷字元串是否為版本号

個人覺得C++BuilderX是個失敗的作品

力扣每日一題：65. 有效數字題目：65. 有效數字解題思路

SQL注入風險小例

比較Flash AS3與AS2特性與功能

GSL--GNU Scientific Library

neo4j之cypher使用文檔