正規表達式-基礎知識Review

正規表達式（Regular Expression)是計算機科學的一個概念。正規表達式使用單個字元竄來描述、比對一系列符合某個句法規則的字元竄。在很多文本編輯器裡，正規表達式通常用來被檢索替換哪些符合某個模式的文本。正規表達式執行個體

建立

JavaScript通過内置對象 RegExp支援正規表達式，有兩種方式建立正規表達式對象，如果我們想比對字元竄中<%xxx%>兩個百分号分割的字元竄可以這麼寫。

構造函數

var regExp = new RegExp('&lt;%[^%&gt;]+%', 'g');

字面量

var regExp = /&lt;%[^%&gt;]%&gt;/g;

最後的g代表全局，還有幾個修飾符

RegExp執行個體對象有五個屬性

g: global, 全文搜尋，不添加的話搜尋到第一個結果停止搜尋。
i: ignore case, 忽略大小寫，預設大小寫敏感。
m: multiple lines, 多行搜尋。
lastIndex: 是目前表達式模式首次比對内容中最後一個字元的下一個位置，每次正規表達式比對成功比對時， lastIndex屬性值都會随之改變。
sourse：正規表達式的文本字元竄。

除了正規表達式編譯為内部格式進而使執行更快的compile()方法，對象還有兩個我們常用的方法。

元字元

正規表達式讓人望而卻步的一個重要原因就是轉譯字元太多，組合非常多，但是正規表達式的元字元（在正規表達式中具有特殊意義的專用字元，可以用來規定其前導字元)并不多

() [] {} \ ^ $ | ? * + .

并不是每個元字元都有特定的意義，在不同的組合中元字元有不同的意義，分類看一下

t 水準制表符 tab
r 回車符 carriage return
n 換行符 newline
f page feed 換頁符
cX 與X對應的控制字元（Ctrl + X )
v 垂直制表符
0 空字元

字元類

一般情況下正規表達式一個字元（轉譯字元算一個）對應字元竄一個字元，表達式 abt 的含義

ab水準制表符

但是我們可以使用元字元[]來建構一個簡單的類，所謂類是指，符合某些特征的對象，是一個泛指，而不是特指某個字元了，我們可以使用表達式[abc], 把字元a或b或c歸為一類，表達式可以比對這類的字元。

字元類取反

元字元[]組合可以建立一個類，我們還可以使用元字元^建立反向類/負向類，反向類的意思是不屬于XXX類的内容，表達式

表示不是字元a或b或c的内容。

範圍類

按照上面的說明如果希望比對單個數字那麼表達式是這樣的

[0123456789]

如果是字母那麼。。。好麻煩，正規表達式還提供了範圍類，我們可以使用x-y來連接配接兩個字元表示從x到y的任意字元，這是個閉區間，也就是說包含x和y本身，這樣比對小寫字母就很簡單了。

[a-z]

預定義類

剛才使用正則我們建立了幾個類，來表示數字，字母等，但這樣寫很麻煩，正規表達式為我們了幾個常用的預定義類來比對常見的字元。

字元	等價類	含義
.	[^rt]	除了回車符和換行符之外的所有字元
d	[0-9]	數字字元
D	[^0-9]
s	[\t\n\x0B\f\r]	空白符
S	[^t\n\x0B\f\r]	非空白符
w	[a-zA-Z_0-9]	字母，數字，下劃線
W	[^a-zA-Z_0-9]	非字母，數字，下劃線

有了這些預定義類，寫一些正則就很友善了，比如我們希望比對一個 ab + 數字 + 任意字元的字元竄，就可以寫了abd.

可以把正規表達式，想象成一種模式，字元竄比對正規表達式定義的模式的結果

string.match(regExpPattern)

邊界

正規表達式還提供了幾個常用的邊界比對字元。


^	以xxx開頭， ^ 開頭的比對參照對象是整個字元竄
$	以xxx結尾， $ 結尾的比對參照對象也是整個字元竄
b	單詞邊界, '-'也是單詞邊界!
B	非單詞邊界

^ 開頭的比對參照對象是整個字元竄，
$ 結尾的比對參照對象也是整個字元竄，
限制的是整個字元竄。

var regExpPattern = /^h\dm/g;
'h2m h3m h2m'.match(regExpPattern); // h2m, 記住這是以整個字元竄去比對的

//同理

var regExpExpPattern = /h\dm$/g;
'h2m h3m h3m'.match(regExpPattern); // h3m

//使用場景 手機号比對

'13423454234'.match(/^1\d{10}$/g)

量詞

之前，介紹的方法都是一一比對，如果希望比對一個連續20次數字的字元竄難道我們需要寫成這樣？

\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d..

為此正規表達式引入了一些量詞


?	出現零次或一次（最多出現一次)
+	出現一次或多次（至少出現一次）
*	出現零次或多次（任意次）
{n}	出現n次
{n,m}	出現n到m次
{n,}	至少出現n次
{,m}	最多出現m次

var regExp = /w+\bBryon/

regExp.test('hi Bryon'); // true

regExp.test('Welcome Byron'); // true

regExp.test('Byron'); //false


//比對帶有3到1個小數的數字
var reg = /\d+\.d{1,3}

貪婪模式與非貪婪模式

看了量詞的介紹，也許愛思考的同學會想到關于比對原則的一些問題，比如{3，5} 這個量詞，要是在句子中出現了十次，那麼他是每次比對三個還是五個，反正3，4，5都滿足3~5的條件。

量詞在預設下是盡可能多的比對的，也就是大家常說的貪婪模式。

// ['12345','6789'];
'12345679'.match(/\d{3,5}/g);

既然有貪婪模式，那麼肯定會有非貪婪模式，讓正規表達式盡可能少的比對，u額就是說一旦成功比對不再繼續嘗試，做法很簡單，在量詞後加上？即可

//['123','456','789']

'123456789'.match(/\d{3,5}?/g);

分組

有時候希望使用量詞的時候比對多個字元，而不是像上面例子隻是比對一個，比如希望比對Byron出現20次的字元竄，寫成Byron{20}的話比對的是Byro+n出現20次。

//寫成Byron{20}的話比對的是Byro+n出現20次。
/Byron{20}/g

怎麼把Byron作為一個整體呢？使用（）就可以達到此目的，在正則中成為分組。

//分組在regExp.exec(stringObj)中會單獨顯示在傳回結果中。

(Byron){20}

或 |

如果希望比對Byron或Casper出現20次該怎麼辦呢？可以使用字元| 達到或的功效

(Byron|Casper){20}

使用分組的正規表達式會把比對項也放到分組中，預設是按數字編号分發的，可以根據編号獲得捕獲的分組内容，這在一些希望具體操作第幾個比對項的函數中很有用。

// Group 1 : Byron , Group 2: ok
(Byron).(ok)

分組嵌套

如果有分組嵌套的情況，外面的組的編号靠前

// group 1： (^|%&gt;)[^\t]*， Group 2: (^|%&gt;)
((^|%&gt;)[^\t]*)

忽略分組

有時候我們不希望捕獲某些分組，隻需要在分組内加上?: 就可以了，這并不意味着該分組内容不屬于正規表達式，隻是不會給這個分組加編号而已。

(?:Bryon).(ok)

前瞻

表達式
exp1(?=exp2)	比對後面是exp2的exp1
exp1(?!exp2)	比對後面不是exp2的exp1

var regExp = /good(?=Byron)/;

regExp.exec('goodByron123'); // ['good']
regExp.exec('goodCapser123'); // null

通過上面例子可以看出exp1(?=exp2)表達式，但隻有其後面内容是exp2的時候才會比對，也就是兩個條件，exp1(?!exp2)比較類似。

正規表達式相關的方法

RegExp.prototype.test(str)

該方法用于測試字元竄參數中是否比對正規表達式模式，如果存在則傳回true，否則傳回false。

var reg = /\d+\.\d{1,2}$/g;

reg.test('123.45'); // true
reg.test('0.2');  // true

reg.test('a.34'); //false
reg.test('34.5678'); //false

//判斷手機号是否正确
function isPhoneNum(phoneNum) {
    var phoneNumberTester = /^1\d{10}$/;
    return phoneNumberTester.test(phoneNum);
}

RegExp.prototype.exec(str)

該方法用于正規表達式模式在字元竄中運作查找，如果exec()找到比對的文本，則傳回一個結果，否則傳回null

除了數組元素和length屬性之外， exec()方法傳回對象還包括兩個屬性。

index屬性聲明的是比對文本的第一個字元的位置。
input屬性則存放的是被檢索的字元竄string。

非全局調用

調用非全局的RegExp對象的exec()時，傳回數組的第一個元素是與正規表達式相比對的文本，第二個元素是與RegExpObject的第一個子表達式相比對的文本（如果有的話），第三個元素時與RegExp對象的第二個子表達式相比對的文本（如果有的話），以此類推。

全局調用

調用全局的RegExp對象的exec()時，它會在RegExp執行個體的lastIndex屬性指定的字元處開始檢索字元竄string

當exec()找到了與表達式相比對的文本時，在比對後，它将把RegExp執行個體的lastIndex屬性設定為比對文本的最後一個字元的下一個位置。可以通過反複調用exec()方法來周遊字元竄中的所有哦比對文本。
當exec()再也找不到比對的文本時，它将傳回null，并把lastIndex屬重置為0。

var reg = /\d/g;

var r =  reg.exec('a1b2c3');

console.log(r);

console.log(reg.lastIndex); // 2

r = reg.exec('a1b2c3');

console.log(reg.lastIndex); // 4

var reg = /\d/g;

while (r = reg.exec('a1b2c3')) {
    console.log(r.index + ':' + r[0])
}

//1:1 , 3:2, 5:3

String.prototype.search(reg)

search()方法用于檢索字元竄中指定的子字元串，或檢索與正規表達式相比對的子字元竄。

search()方法不執行全局比對，它将忽略标志g，它同時忽略正規表達式對象的lastIndex屬性，并且總是從字元竄的開始進行檢索，這意味着它總是傳回字元竄的第一個比對的位置。

String.prototype.match(reg)

match()方法将檢索字元竄，以找到一個或多個與regexp比對的文本。但regexp是否具有标志g對結果影響很大。

如果regexp沒有标志g，那麼match()方法就隻能在字元竄中執行一次比對。如果沒有找到任何比對的文本，match()将傳回null。否則它将傳回一個數組，其中存放了與它找到的比對文本有關的資訊。

該數組的第一個元素存放的是比對文本，而其餘的元素存放的是與正規表達式的子表達式比對的文本。除了這些正常的數組元素之外，傳回的數組還含有兩個對象屬性。

index屬性聲明的是比對文本的起始字元在字元竄中的位置。
input屬性聲明的是對stringObject的引用。

String.prototype.replace(reg, replaceStr|| function callback())

關于string對象的replace方法，我們最常用的是傳入兩個字元竄的做法，但這種做法有個缺陷，隻能replace一次。

'abcabcabc'.replacce('bc', 'X') //aXabcabc

replace方法的第一個參數還可以傳入RegExp對象，傳入正規表達式可以使replace方法更加強大靈活

'abcabcabc'.replace(/bc/g, 'X'); //aXaXaX
'abcabcabc'.replace(bc/gi, 'X'); // aXaXaX

如果replace方法的第一個參數傳入的是帶分組的正規表達式，我們在第二個參數中可以使用$1...$9來擷取相應分組内容，比如希望把字元竄1<%2%>34>%567%>89的<%x%>換為&dollar;#x#$, 我們可以這樣

'1<%2%>34>%567%>89的<%x%>'.replace(/<%(d+)%>)/g, '@#$1#@');

// 1@#2#@34@#567#@89

當然還有很多方式可以達到這一目的，這裡隻是示範一下利用分組内容，我們在第二個參數中使用@#&dollar;1#@, 其中$1表示被捕獲的分組内容弄，在一些js模闆函數中可以經常見到這種方式替換字元竄。

可以通過修改replace方法的第二個參數，使replace更加強大，在前面的介紹中，隻能把所有比對替換為固定内容，但如果我希望把一個字元竄中所有數字，都用小括号包起來該怎麼弄？

'2398sdadads1smdsa3mmm23mmmbb'.replace(/\d+/g, function(matchedStr, groupContent$, index, strObj ) {
    return '(' + matchedStr + ')';
})

把replace方法的第二個參數傳入一個function，這個function會在每次比對替換的時候調用，算是個每次替換的回調函數，我們使用了回調函數的第一個參數，也就是比對内容，其實回調函數一共有四個參數。

第一個參數很簡單，是比對字元竄。
第二個參數是正規表達式分組内容，沒有分組則沒有該參數。
第三個參數是比對項在字元竄中的index。
第四個參數則是原字元竄。

例子

'2398rsjdhahd2131kksdajdj23'.replace(/\d+/g, function(matchedSubStr,index, strObj) {
    console.log(matchedSubStr + '\t' + index + '\t' + strObj);
    return '(' + matchedSubStr +')';
})

//2398 0    2398rsjdhahd2131kksdajdj23    
//2131 12    2398rsjdhahd2131kksdajdj23    
//23 24 2398rsjdhahd2131kksdajdj23

這是沒有分組的情況，列印出來的分别是比對内容、比對項index和原字元竄，看個有分組的。

'&lt;%1%&gt;&lt;%2%&gt;&lt;%3%&gt;'.replace(/&lt;%([^%&gt;]+)%&gt;/g, function(matchedStr, group, index, thisStrObj) {
    console.log(matchedStr + '\t' + group + '\t' + index + '\t' + thisStrObj);
    return group;
})

//&lt;%1%&gt;    1    0    &lt;%1%&gt;&lt;%2%&gt;&lt;%3%&gt;
//&lt;%2%&gt;    2    5    &lt;%1%&gt;&lt;%2%&gt;&lt;%3%&gt;
//&lt;%3%&gt;    3    10    &lt;%1%&gt;&lt;%2%&gt;&lt;%3%&gt;
//"123"

String.prototype.split(reg)

使用split方法把字元竄分割為字元數組

'a,b,c,d'.split(',');
// ['a','b','c','d']

和replace方法類似，在一些複雜的分割情況下我們可以使用正規表達式解決

'a1b2c3d'.split(/\d/); // ['a','b','c','d']

abc ↩

原文位址：https://segmentfault.com/a/1190000016599340

正規表達式-基礎知識Review

建立

元字元

字元類

字元類取反

範圍類

預定義類

邊界

量詞

貪婪模式與非貪婪模式

分組

前瞻

正規表達式相關的方法

繼續閱讀

開源項目AndroidReview學習小結（1）

由學習《軟體設計重構》所想到的代碼review（二）

由學習《軟體設計重構》所想到的代碼review（一）

Silverlight Telerik控件學習：帶CheckBox複選框的樹形TreeView控件

簡單實用的Code Review工具

Android學習Scroller(二)——ViewGroup調用scrollTo()

我與京東的那些事兒

git review報錯一例

15個最佳的代碼評審（Code Review）工具

ASP.NET MVC V2 Preview 1 釋出期望VS有更好的表現

即将到來的ASP.NET MVC RC中的一些新特性

談一下我們是如何開展code review的

由學習《軟體設計重構》所想到的代碼review（二）

由學習《軟體設計重構》所想到的代碼review（一）

【如何有效做Code Review】8行代碼提出的21個問題8行代碼的21問題1. 如何有效的做CR?2. 抽象1步，如何複制和複用？3 再抽象1步，如何系統性預防和發現暴露出的問題？

16 個好用的 Code Review 工具1. Review Assistant2. Reshift3. Gerrit4. Codestriker5. Phabricator6. Crucible7. Review Board8. Barkeep9. Reviewable10. Peer Review Plugin11. Codacy12. CodeFactor.io13. Helix Swarm14. Rhodecode15. Veracode16. JArchitect