天天看點

C#中正規表達式的使用

目前為止,許多程式設計語言和工具都包含對正規表達式的支援,C#也不例外,C#基礎類庫中包含有一個命名空間(System.Text.RegularExpressions)和一系列可以充分發揮規則表達式威力的類(Regex、Match、Group等)。那麼,什麼是正規表達式,怎麼定義正規表達式呢?

一、正規表達式基礎

l          什麼是正規表達式

   在編寫字元串的處理程式時,經常會有查找符合某些複雜規則的字元串的需要。正規表達式就是用于描述這些規則的工具。換句話說,正規表達式就是記錄文本規則的代碼。

    通常,我們在使用WINDOWS查找檔案時,會使用通配符(*和?)。如果你想查找某個目錄下的所有Word文檔時,你就可以使用*.doc進行查找,在這裡,*就被解釋為任意字元串。和通配符類似,正規表達式也是用來進行文本比對的工具,隻不過比起通配符,它能更精确地描述你的需求——當然,代價就是更複雜。

l          一個簡單的例子——驗證電話号碼

學習正規表達式的最好方法是從例子開始,下面我們從驗證電話号碼開始,一步一步的了解正規表達式。

在我們國家,電話号碼(如:0379-65624150)通常包含3到4為以0開頭的區号和一個7或8為的号碼,中間通常以連字元’-’隔開。在這個例子中,首先我們要介紹一個元字元\d,它用來比對一個0到9的數字。這個正規表達式可以寫成:^0\d{2,3}-\d{7,8}$

我們來對他進行分析,0比對數字“0”,\d比對一個數字,{2,3}表示重複2到3次,-隻比對”-”自身,接下來的\d同樣比對一個數字,而 {7,8}則表示重複7到8次。當然,電話号碼還可以寫成 (0379)65624150,這裡就交給讀者完成。

l          元字元

在上面的例子中,我們接觸到了一個元字元\d,正如你所想的,正規表達式還有很多像\d一樣的元字元,下表列出了一些常用的元字元:

元字元

說明

.

比對除換行符以外的任意字元

\b

比對單詞的開始或結束

\d

比對數字

\s

比對任意的空白符

\w

比對字母或數字或下劃線或漢字

^

比對字元串的開始

$

比對字元串的結束

表1、常用的元字元

l          轉義字元

   如果你想查找元字元本身的話,比如你查找.,或者*,就出現了問題:你沒辦法指定它們,因為它們會被解釋成别的意思。這時你就得使用\來取消這些字元的特殊意義。是以,你應該使用\.和\*。當然,要查找\本身,你也得用\\.

例如:unibetter\.com比對unibetter.com,C:\\Windows比對C:\Windows。

l          限定符

限定符又叫重複描述字元,表示一個字元要出現的次數。比如我們在比對電話号碼時使用的{3,4}就表示出現3到4次。常用的限定符有:

限定符

*

重複零次或更多次

+

重複一次或更多次

?

重複零次或一次

{n}

重複n次

{n,}

重複n次或更多次

{n,m}

重複n到m次

表2、常用的限定符

二、.NET中正規表達式的支援

    System.Text.RegularExpressions 命名空間包含一些類,這些類提供對 .NET Framework 正規表達式引擎的通路。該命名空間提供正規表達式功能,可以從運作在 Microsoft .NET Framework 内的任何平台或語言中使用該功能。

    1、在C#中使用正規表達式

在了解了C#中支援正規表達式的類後,我們一起來将上面提到的驗證電話号碼的正規表達式寫入C#代碼中,實作電話号碼的驗證。

第一步,建立一個名為SimpleCheckPhoneNumber的Windows項目。

第二步,引入System.Text.RegularExpressions命名空間。

第三步,寫出正規表達式。這裡的正規表達式就是上面的驗證号碼的字元串。由于上面的字元串隻能驗證用連字元連接配接區号和号碼的方式的電話号碼,是以我們做了一些修改:0\d{2,3}-\d{7,8}|\(0\d{2,3}\)\d{7,8}。在這個表達式中,| 号面的一部分是我們上面提到過的,後面一部分是用來驗證(0379)65624150這種電話号碼寫法的。由于 (  和  ) 也是元字元,是以要用轉義字元。| 表示分支比對,要麼比對前面的一部分,要麼比對後面的一部分。

第四步,正規表達式構造一個Regex類。

第五步,使用Regex類的IsMatch方法驗證比對。Regex類的IsMatch()方法傳回一個bool值,如果有比對項,傳回true,否則傳回false。

三、正規表達式進階

l      分組

在比對電話号碼的時候,我們已經用到過重複單個字元。下面我們來了解如何使用分組來比對一個IP位址。

衆所周知,IP位址是四段點分十進制的字元串表示的。是以,我們可以通過位址的分組,來進行比對。首先,我們來比對第一段:2[0-4]\d|25[0-5]|[01]?\d\d? 這段正規表達式可以比對IP位址的一段數字。2[0-4]\d 比對以2開頭,十位為0到4,個位為任何數字的三位字段,25[0-5] 比對以25 開頭,個位為0到5 的三位字段,[01]?\d\d? 比對任何以1者0頭,個位和十位為任何數子的字段。? 表示出現零次或一次。是以, [01] 和 最後一個 \d 都可以不出現,如果我們再向這個字元串後面添加一個 \. 來比對 . 就可以劃分一個段了。現在,我們把 2[0-4]\d|25[0-5]|[01]?\d\d?\. 當做一個分組,就可以寫成 (2[0-4]\d|25[0-5]|[01]?\d\d?\.) 。接下來我們就來使用這個分組。将這個分組重複兩次,然後,再使用 2[0-4]\d|25[0-5]|[01]?\d\d? 就可以了。完整的正規表達式為: (2[0-4]\d|25[0-5]|[01]?\d\d?\.){3}2[0-4]\d|25[0-5]|[01]?\d\d?

l      後向引用

在我們了解分組以後,我們就可以使用後向引用了。所謂後向引用,就是使用前面捕獲的結果,對後面的字元進行比對。多用于比對重複字元。比如比對 go go 這樣的重複字元。我們就可以使用 (go) \1來進行比對。

預設情況下,每個分組會自動擁有一個組号,規則是:從左向右,以分組的左括号為标志,第一個出現的分組的組号為1,第二個為2,以此類推。當然,你也可以自己指定子表達式的組名。要指定一個子表達式的組名,請使用這樣的文法:(?<Word>\w+)(或者把尖括号換成'也行:(?'Word'\w+)),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的内容,你可以使用\k<Word>,是以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s+\k<Word>\b。

自定義組名還有另外一個好處,在我們的C#程式中,如果需要得到分組的值,我們就可以很明确的使用我們定義的分組的名字來得到,而不必使用下标。

當我們并不想使用後向引用時,是不需要捕獲組記憶任何東西的,這種情況下就可以利用(?:nocapture)文法來主動地告訴正規表達式引擎,不要把圓括号的内容當作捕獲組,以便提高效率。

l      零寬斷言

在前面的元字元介紹中,我們已經知道了有這樣一類字元,可以比對一句話的開始、結束(^ $)或者比對一個單詞的開始、結束(\b)。這些元字元隻比對一個位置,指定這個位置滿足一定的條件,而不是比對某些字元,是以,它們被成為 零寬斷言。所謂零寬,指的是它們不與任何字元相比對,而比對一個位置;所謂斷言,指的是一個判斷。正規表達式中隻有當斷言為真時才會繼續進行比對。

在有些時候,我們精确的比對一個位置,而不僅僅是句子或者單詞,這就需要我們自己寫出斷言來進行比對。下面是斷言的文法:

斷言文法

(?=pattern)

前向肯定斷言,比對pattern前面的位置

(?!pattern)

前向否定斷言,比對後面不是pattern的位置

(?<=pattern)

後向肯定斷言,比對pattern後面的位置

(?<!pattern)

後向否定斷言,比對前面不是pattern的位置

表3、斷言的文法及說明

很難了解嗎?我們來看一個例子。

有一個标簽:<book>,我們想要得到标簽<book>的标簽名(book),這個時候,我們就可以使用斷言來處理。看下面這個表達式:(?<=\<)(?<tag>\w*)(?=\>),使用這個表達式,可以比對< 和 >之間的字元,也就是這裡的book。使用斷言還還可以寫出更加複雜的表達式,這裡就不再舉例了。

還有一點非常重要,就是斷言文法所使用的圓括号并不作為捕獲組,是以不能使用編号或命名來對它進行引用。

l 貪婪與懶惰

當正規表達式中包含能接受重複的限定符時,通常的行為是(在使整個表達式能得到比對的前提下)比對盡可能多的字元。來看一下這個表達式:a\w*b ,用它來比對字元串 aabab 時,得到的比對結果是 aabab 。這種比對被稱為貪婪比對。

有些時候,我們希望讓它盡可能的少重複,即用上面的例子得到的比對結果是 aab,這時我們就要使用懶惰比對。懶惰比對需要在重複限定符的後面添加一個 ?符号,上面的表達式就可以寫成:a\w*?b 我們再來比對字元串 aabab時,得到的比對結果是 aab 和 ab 。

也許這個時候你要問,ab 比aab重複次數更少,為什麼不先比對ab呢?其實在正規表達式中還有比貪婪/懶惰優先級更高的規則:最先開始的比對擁有最高的優先權——The match that begins earliest wins。

l 注釋

文法:(?#comment)

   例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

   注意:如果使用注釋,則需要格外注意不要在注釋的小括号前面出現空格、換行符等一些字元,如果可以忽略這些字元,則最好使用“忽略模式裡的空白符”選項,即C#中RegexOptions枚舉的IgnorePatternWhitespace選項(C#中的RegexOptions枚舉下面将會提到)。

l C#中的處理選項

在C#中,可以使用RegexOptions 枚舉來選擇C#對正規表達式的處理方式。下面是MSDN中RegexOptions 枚舉的成員介紹:

l C#中Capture類、Group類、Match類

Capture類:表示單個子表達式捕獲中的結果。Capture類表示單個成功捕獲中的一個子字元串。該類沒有公共構造函數,可以從Group類或者Match類中得到一個Capture類的對象集合。Capture類有三個常用屬性,分别是Index、Length和Value。Index表示捕獲的子字元串的第一個字元的位置。Length表示捕獲的子字元串的長度,Value表示捕獲的子字元串。

Group類:表示正規表達式中分組的資訊。該類提供了對分組比對的正規表達式的支援。該類沒有公共構造函數。可以從Match類中得到一個Group類的集合。如果正規表達式中的分組已命名,則可以使用名字對其進行通路,如果沒有命名,則可以采用下标通路。注意:每一個Match的Groups集合中的第0個元素(Groups[0])都是這個Match捕獲的字元串,也是Capture的Value。

Match類:表示單個正規表達式比對的結果。該類同樣沒有公共構造函數,可以從Regex類的Match()方法得到該類的一個執行個體,也可以使用Regex類的Matches()方法得到給類的一個集合。

這三個類都能表示單個正規表達式比對的結果,但Match類得到的更為詳細,包含捕獲和分組資訊。是以,Match類在這個三個類中是最常用的。

本文轉自齊師傅部落格園部落格,原文連結:http://www.cnblogs.com/youring2/archive/2009/11/07/1597786.html,如需轉載請自行聯系原作者

繼續閱讀