在項目中碰到了正規表達式的運用,正則還是非常強大的,不管什麼程式設計語言,基本上都可以用到。之前在用java時特别是對使用者名或密碼使用正則非常爽,寫腳本上用正則也非常爽,可是到了oc這卻把我虐了一把,可能是對oc掌握的不夠。這裡就羅列了從網上找的很有用的資料,感謝大神們的貢獻。
首先舉一個例子:
比對9-15個由字母/數字組成的字元串的正規表達式:
假如是在oc裡用,一定要注意細節。
列出我在項目中用到的代碼:


下一行代碼非常關鍵:
這裡有!一定要注意。因為nicknametextfield.text和pred比對的時候傳回的是yes。是以在判斷他們比對時的情況要加!。
說明:正規表達式通常用于兩種任務:1.驗證,2.搜尋/替換。用于驗證時,通常需要在前後分别加上^和$,以比對整個待驗證字元串;搜尋/替換時是否加上此限定則根據搜尋的要求而定,此外,也有可能要在前後加上\b而不是^和$。此表所列的常用正規表達式,除個别外均未在前後加上任何限定,請根據需要,自行處理。
說明
正規表達式
網址(url)
[a-za-z]+://[^\s]*
ip位址(ip address)
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
電子郵件(email)
\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
qq号碼
[1-9]\d{4,}
html标記(包含内容或自閉合)
<(.*)(.*)>.*<\/\1>|<(.*) \/>
密碼(由數字/大寫字母/小寫字母/标點符号組成,四種都必有,8位以上)
(?=^.{8,}$)(?=.*\d)(?=.*\w+)(?=.*[a-z])(?=.*[a-z])(?!.*\n).*$
日期(年-月-日)
(\d{4}|\d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9]))
日期(月/日/年)
((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(\d{4}|\d{2})
時間(小時:分鐘, 24小時制)
((1|0?)[0-9]|2[0-3]):([0-5][0-9])
漢字(字元)
[\u4e00-\u9fa5]
中文及全角标點符号(字元)
[\u3000-\u301e\ufe10-\ufe19\ufe30-\ufe44\ufe50-\ufe6b\uff01-\uffee]
中國大陸固定電話号碼
(\d{4}-|\d{3}-)?(\d{8}|\d{7})
中國大陸手機号碼
1\d{10}
中國大陸郵政編碼
[1-9]\d{5}
中國大陸身份證号(15位或18位)
\d{15}(\d\d[0-9xx])?
非負整數(正整數或零)
\d+
正整數
[0-9]*[1-9][0-9]*
負整數
-[0-9]*[1-9][0-9]*
整數
-?\d+
小數
(-?\d+)(\.\d+)?
不包含abc的單詞
\b((?!abc)\w)+\b
正規表達式:是指一個用來描述或者比對一系列符合某個句法規則的字元串的單個字元串,簡單說,就是我們寫個模闆,然後去比對字元串。
下面我們來看看一些基本的正規表達式的文法:
\:将下個字元标記為一個特殊的字元、一個原義字元、一個向後引用或者一個八進制轉義符例如“\n”就是比對一個換行符。
^:比對開始位置,^(a)這個就比對開頭必須為a。
$:比對結束位置,$(a)這個就比對結尾必須為a。
*:比對前面的子表達式零次或者多次,如“xu*”這個表達式就能夠比對“x”和“xuu”。
+:比對前面的子表達式一次或者多次,如“xu+”這個表達式就能夠比對“xuu”和“xu”,但不能夠比對“x”,這個就是和“*”的差別。
?:比對前面的子表達式零次或者一次,如“xu?”這個表達式就能夠比對“jian(guo)?”就可以比對“jian”和“jianguo”。
{n}:n是一個非負數,比對n次,如“guo{2}”,可以比對“guoo”,不能比對“guo”。
{n,}:n是一個非負數,比對至少n次。
{n, m}:m、n都是非負數,最少比對n次,最多比對m次。
(pattern):比對pattern并擷取比對結果。
(?:pattern):比對pattern但不擷取比對結果。
x|y:比對x或y,如“(xu|jian)guo”比對“xuguo”或者“jianguo”。
[xyz]:字元集合,比對所包含的任意字元。如“[abc]”可以比對“apple”中的“a”。
[^xyz]:比對未被包含的字元。
[a-z]:字元範圍,比對指定範圍内的任意字元。
[^a-z]:比對指定不在範圍内的任意字元。
\b:比對一個單詞的邊界,如“guo\b”可以比對“xujianguo”中的“guo”。
\b:比對非單詞邊界,如“jian\b”可以比對“xujianguo”中的“jian”。
\d:比對一個數字字元,等價于“[0-9]”。
\d:比對一個非數字字元。
\f:比對一個換頁符。
\n:比對一個換行符。
\r:比對一個回車符。
\s:比對任何空白字元
其實還有很多文法我就不一一列舉了,先說這麼多先
正則查找方法
<a target="_blank" href="http://developer.apple.com/library/ios/documentation/cocoa/reference/foundation/classes/nsstring_class/reference/nsstring.html#//apple_ref/occ/instm/nsstring/rangeofstring:options:">– rangeofstring:options:</a>
<a target="_blank" href="http://developer.apple.com/library/ios/documentation/cocoa/reference/foundation/classes/nsstring_class/reference/nsstring.html#//apple_ref/occ/instm/nsstring/rangeofstring:options:range:">– rangeofstring:options:range:</a>
<a target="_blank" href="http://developer.apple.com/library/ios/documentation/cocoa/reference/foundation/classes/nsstring_class/reference/nsstring.html#//apple_ref/occ/instm/nsstring/rangeofstring:options:range:locale:">– rangeofstring:options:range:locale:</a>
正則替換方法
<a target="_blank" href="http://developer.apple.com/library/ios/documentation/cocoa/reference/foundation/classes/nsstring_class/reference/nsstring.html#//apple_ref/occ/instm/nsstring/stringbyreplacingoccurrencesofstring:withstring:options:range:">– stringbyreplacingoccurrencesofstring:withstring:options:range:</a>
使用regexkitlite的方法很簡單,将regexkitlite.h和regexkitlite.m加入到工程,然後引入libicucore.dylib庫即可。
regexkitlit nsstring方法參考
<a target="_blank" href="http://regexkit.sourceforge.net/regexkitlite/index.html#regexkitlitensstringadditionsreference">regexkitlite nsstring additions reference</a>
regexkitlite的使用說明見:
<a target="_blank" href="http://regexkit.sourceforge.net/regexkitlite/index.html#usingregexkitlite">using regexkitlite</a>
icu正則文法為:
<a target="_blank" href="http://regexkit.sourceforge.net/regexkitlite/index.html#icusyntax">icu syntax</a>
<a target="_blank" href="http://userguide.icu-project.org/strings/regexp">icu user guide – regular expressions</a>
regexkit framework功能很強大,其向nsarray,nsdata,nsdictionary,nsset和nsstring對象增加了正規表達式的支援。
regexkit.framework
regexkitlite
regex library
pcre
icu
library included
yes, built into framework object file.
no, provided by mac os x.
library linked as
statically linked into framework.
dynamically linked to/usr/lib/libicucore.dylib.
compiled size
approximately 371kb† per architecture.
very small, approximately 16kb—20kb‡ per architecture.
style
external, linked to framework.
compiled directly in to final executable.
feature set
large, with additions to many classes.
minimal, nsstring only.
常用的icu正則比對模式見:
<a target="_blank" href="http://regexkit.sourceforge.net/regexkitlite/index.html#regexkitlitecookbook">regexkitlite cookbook</a>
description
regex
examples
integer
[+\-]?[0-9]+
123-42+23
hex number
0[xx][0-9a-fa-f]+
0×00xdeadbeef0xf3
floating point
[+\-]?(?:[0-9]*\.[0-9]+|[0-9]+\.)
123..123+.42
floating point with exponent
[+\-]?(?:[0-9]*\.[0-9]+|[0-9]+\.)(?:[ee][+\-]?[0-9]+)?
123..12310.0e131.23e-7
comma separated number
[0-9]{1,3}(?:,[0-9]{3})*
421,2341,234,567
[0-9]{1,3}(?:,[0-9]{3})*(?:\.[0-9]+)?
421,2341,234,567.89
empty line
(?m:^$)
empty or whitespace only line
(?m-s:^\s*$)
strip leading whitespace
(?m-s:^\s*(.*?)$)
strip trailing whitespace
(?m-s:^(.*?)\s*$)
strip leading and trailing whitespace
(?m-s:^\s*(.*?)\s*$)
quoted string, can span multiple lines, may contain \"
"(?:[^"\\]*+|\\.)*"
quoted string, single line only, may contain \"
"(?:[^"\\\r\n]*+|\\[^\r\n])*"
html comment
(?s:<--.*?-->)
perl / shell comment
(?m-s:#.*$)
c, c++, or objc comment
(?m-s://.*$)
c, c++, or objc comment and leading whitespace
(?m-s:\s*//.*$)
(?s:/\*.*?\*/)
http
\bhttps?://[a-za-z0-9\-.]+(?:(?:/[a-za-z0-9\-._?,'+\&%$=~*!():@\\]*)+)?
\b(https?)://([a-za-z0-9\-.]+)((?:/[a-za-z0-9\-._?,'+\&%$=~*!():@\\]*)+)?
\b(https?)://(?:(\s+?)(?::(\s+?))?@)?([a-za-z0-9\-.]+)(?::(\d+))?((?:/[a-za-z0-9\-._?,'+\&%$=~*!():@\\]*)+)?
\b([a-za-z0-9%_.+\-]+)@([a-za-z0-9.\-]+?\.[a-za-z]{2,6})\b
hostname
\b(?:[a-za-z0-9][a-za-z0-9\-]{0,61}?[a-za-z0-9]\.)+[a-za-z]{2,6}\b
ip
\b(?:\d{1,3}\.){3}\d{1,3}\b
ip with optional netmask
\b((?:\d{1,3}\.){3}\d{1,3})(?:/(\d{1,2}))?\b
ip or hostname
\b(?:(?:\d{1,3}\.){3}\d{1,3}|(?:[a-za-z0-9][a-za-z0-9\-]{0,61}?[a-za-z0-9]\.)+[a-za-z]{2,6})\b
在正規表達式中單獨使用*或+時,預設是比對盡可能多的資料,即貪婪比對。
比如對 abcdefgabcdefg 使用abc(.*)g進行比對,則捕獲到到的資料為 defgabcdef。
若隻想捕獲到第一個g,即隻想得到def,則需要使用最小比對,在*或+後面加上?,即使用abc(.*?)g進行比對。
另外,在正則中用(…)包含内容是要捕獲的資料,如果隻要用(…)來引用group而不想捕獲則可使用(?:…)。
在書寫正規表達式時,需要将\進行轉義,即寫成兩個\\。
例如 比對ip位址的正規表達式為 \b(?:\d{1,3}\.){3}\d{1,3}\b,則在實際書寫時則為
參考:
<a target="_blank" href="http://blog.csdn.net/edisonkun/article/details/7343949">ios 開發中使用正規表達式-暨 regexkitlite 庫的用法</a>
<a target="_blank" href="http://regexkit.sourceforge.net/regexkitlite/index.html">regexkitlite documentation</a>
<a target="_blank" href="http://www.builder.com.cn/2004/0614/121979.shtml">[perl]了解貪婪比對和最小比對之間的差別</a>
<a target="_blank" href="http://developer.apple.com/library/ios/#documentation/cocoa/reference/foundation/classes/nsstring_class/reference/nsstring.html">nsstring class reference</a>
<a target="_blank" href="http://site.icu-project.org/">icu – international components for unicode</a>
常用的第三方正則庫:
http://regexkit.sourceforge.net/regexkitlite/index.html
比對中文字元的正規表達式: [\u4e00-\u9fa5]
評注:比對中文還真是個頭疼的事,有了這個表達式就好辦了
比對雙位元組字元(包括漢字在内):[^\x00-\xff]
評注:可以用來計算字元串的長度(一個雙位元組字元長度計2,ascii字元計1)
比對空白行的正規表達式:\n\s*\r
評注:可以用來删除空白行
比對html标記的正規表達式:<(\s*?)[^>]*>.*?</\1>|<.*? />
評注:網上流傳的版本太糟糕,上面這個也僅僅能比對部分,對于複雜的嵌套标記依舊無能為力
比對首尾空白字元的正規表達式:^\s*|\s*$
評注:可以用來删除行首行尾的空白字元(包括空格、制表符、換頁符等等),非常有用的表達式
比對email位址的正規表達式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評注:表單驗證時很實用
比對網址url的正規表達式:[a-za-z]+://[^\s]*
評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求
比對帳号是否合法(字母開頭,允許5-16位元組,允許字母數字下劃線):^[a-za-z][a-za-z0-9_]{4,15}$
比對國内電話号碼:\d{3}-\d{8}|\d{4}-\d{7}
評注:比對形式如 0511-4405222 或 021-87888822
比對騰訊qq号:[1-9][0-9]{4,}
評注:騰訊qq号從10000開始
比對中國郵政編碼:[1-9]\d{5}(?!\d)
評注:中國郵政編碼為6位數字
比對身份證:\d{15}|\d{18}
評注:中國的身份證為15位或18位
比對ip位址:\d+\.\d+\.\d+\.\d+
評注:提取ip位址時有用
比對特定數字:
^[1-9]\d*$ //比對正整數
^-[1-9]\d*$ //比對負整數
^-?[1-9]\d*$ //比對整數
^[1-9]\d*|0$ //比對非負整數(正整數 + 0)
^-[1-9]\d*|0$ //比對非正整數(負整數 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //比對正浮點數
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //比對負浮點數
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //比對浮點數
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //比對非負浮點數(正浮點數 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //比對非正浮點數(負浮點數 + 0)
評注:處理大量資料時有用,具體應用時注意修正
比對特定字元串:
^[a-za-z]+$ //比對由26個英文字母組成的字元串
^[a-z]+$ //比對由26個英文字母的大寫組成的字元串
^[a-z]+$ //比對由26個英文字母的小寫組成的字元串
^[a-za-z0-9]+$ //比對由數字和26個英文字母組成的字元串
^\w+$ //比對由數字、26個英文字母或者下劃線組成的字元串
<input onkeypress="return /[\w\u4e00-\u9fa5]/.test(string.fromcharcode(window.event.keycode))"
onpaste="return !/[^\w\u4e00-\u9fa5]/g.test(window.clipboarddata.getdata('text'))"
ondragenter="return false"/>
再粘貼一些别人寫的。
1.隻能輸入數字和英文的:
<input onkeyup="value=value.replace(/[\w]/g,'') " onbeforepaste="clipboarddata.setdata('text',clipboarddata.getdata('text').replace(/[^\d]/g,''))" id="text1" name="text1">
2.隻能輸入數字的:
<input onkeyup="value=value.replace(/[^\d]/g,'') " onbeforepaste="clipboarddata.setdata('text',clipboarddata.getdata('text').replace(/[^\d]/g,''))" id="text2" name="text2">
3.隻能輸入全角的:
<input onkeyup="value=value.replace(/[^\uff00-\uffff]/g,'')" onbeforepaste="clipboarddata.setdata('text',clipboarddata.getdata('text').replace(/[^\uff00-\uffff]/g,''))" id="text3" name="text3">
4.隻能輸入漢字的:
<input onkeyup="value=value.replace(/[^\u4e00-\u9fa5]/g,'')" onbeforepaste="clipboarddata.setdata('text',clipboarddata.getdata('text').replace(/[^\u4e00-\u9fa5]/g,''))" id="text4" name="text4">
5.郵件位址驗證:
var regu = "^(([0-9a-za-z]+)|([0-9a-za-z]+[_.0-9a-za-z-]*[0-9a-za-z]+))@([a-za-z0-9-]+[.])+([a-za-z]{2}|net|net|com|com|gov|gov|mil|mil|org|org|edu|edu|int|int)$"
var re = new regexp(regu);
if (s.search(re) != -1) {
return true;
} else {
window.alert ("請輸入有效合法的e-mail位址 !")
return false;
}
6.身份證:
"^\\d{17}(\\d|x)$"
7.17種正規表達式
"^\\d+$" //非負整數(正整數 + 0)
"^[0-9]*[1-9][0-9]*$" //正整數
"^((-\\d+)|(0+))$" //非正整數(負整數 + 0)
"^-[0-9]*[1-9][0-9]*$" //負整數
"^-?\\d+$" //整數
"^\\d+(\\.\\d+)?$" //非負浮點數(正浮點數 + 0)
"^(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*))$" //正浮點數
"^((-\\d+(\\.\\d+)?)|(0+(\\.0+)?))$" //非正浮點數(負浮點數 + 0)
"^(-(([0-9]+\\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\\.[0-9]+)|([0-9]*[1-9][0-9]*)))$" //負浮點數
"^(-?\\d+)(\\.\\d+)?$" //浮點數
"^[a-za-z]+$" //由26個英文字母組成的字元串
"^[a-z]+$" //由26個英文字母的大寫組成的字元串
"^[a-z]+$" //由26個英文字母的小寫組成的字元串
"^[a-za-z0-9]+$" //由數字和26個英文字母組成的字元串
"^\\w+$" //由數字、26個英文字母或者下劃線組成的字元串
"^[\\w-]+(\\.[\\w-]+)*@[\\w-]+(\\.[\\w-]+)+$" //email位址
"^[a-za-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\s*)?$" //url
=============================================
1.取消按鈕按下時的虛線框
在input裡添加屬性值 hidefocus 或者 hidefocus=true
2.隻讀文本框内容
在input裡添加屬性值 readonly
3.防止退後清空的text文檔(可把style内容做做為類引用)
<input style=behavior:url(#default#savehistory); type=text id=opersistinput>
4.enter鍵可以讓光标移到下一個輸入框
<input onkeydown="if(event.keycode==13)event.keycode=9" >
5.隻能為中文(有閃動)
<input onkeyup="value="/value.replace(/[" -~]/g,’’)" onkeydown="if(event.keycode==13)event.keycode=9">
6.隻能為數字(有閃動)
<input onkeyup="value="/value.replace(/["^\d] /g,’’) "onbeforepaste="clipboarddata.setdata(’text’,clipboarddata.getdata(’text’).replace(/[^\d]/g,’’))">
7.隻能為數字(無閃動)
<input ime- mode:disabled" onkeydown="if(event.keycode==13)event.keycode=9" onkeypress="if ((event.keycode<48 || event.keycode>57)) event.returnvalue=false">
8.隻能輸入英文和數字(有閃動)
<input onkeyup="value="/value.replace(/[\w] /g,"’’)" onbeforepaste="clipboarddata.setdata(’text’,clipboarddata.getdata(’text’).replace(/[^\d]/g,’’))">
9.屏蔽輸入法
<input type="text" name="url" ime-mode:disabled" onkeydown="if(event.keycode==13)event.keycode=9">
10. 隻能輸入 數字,小數點,減号(-) 字元(無閃動)
<input onkeypress="if (event.keycode!=46 && amp; event.keycode!=45 && (event.keycode<48 || event.keycode>57)) event.returnvalue=false">
11. 隻能輸入兩位小數,三位小數(有閃動)
<input maxlength=9 onkeyup="if(value.match(/^\d{3}$/))value=" /value.replace(value,parseint(value/10))" ;value="/value.replace(/\.\d*\./g,’."’)" onkeypress="if((event.keycode<48 || event.keycode>57) && event.keycode!=46 && event.keycode!=45 || value.match(/^\d{3}$/) || /\.\d{3}$/.test(value)) {event.returnvalue=false}" id=text_kfxe name=text_kfxe>
簡介
簡單的說,正規表達式是一種可以用于模式比對和替換的強有力的工具。其作用如下:
測試字元串的某個模式。例如,可以對一個輸入字元串進行測試,看在該字元串是否存在一個電話号碼模式或一個信用卡号碼模式。這稱為資料有效性驗證。
替換文本。可以在文檔中使用一個正規表達式來辨別特定文字,然後可以全部将其删除,或者替換為别的文字。
根據模式比對從字元串中提取一個子字元串。可以用來在文本或輸入字段中查找特定文字。
基本文法
在對正規表達式的功能和作用有了初步的了解之後,我們就來具體看一下正規表達式的文法格式。
正規表達式的形式一般如下:
/love/ 其中位于“/”定界符之間的部分就是将要在目标對象中進行比對的模式。使用者隻要把希望查找比對對象的模式内容放入“/”定界符之間 即可。為了能夠使使用者更加靈活的定制模式内容,正規表達式提供了專門的“元字元”。所謂元字元就是指那些在正規表達式中具有特殊意義的專用字元,可以用來 規定其前導字元(即位于元字元前面的字元)在目标對象中的出現模式。
較為常用的元字元包括: “+”, “*”,以及 “?”。
“+”元字元規定其前導字元必須在目标對象中連續出現一次或多次。
“*”元字元規定其前導字元必須在目标對象中出現零次或連續多次。
“?”元字元規定其前導對象必須在目标對象中連續出現零次或一次。
下面,就讓我們來看一下正規表達式元字元的具體應用。
/fo+/ 因為上述正規表達式中包含“+”元字元,表示可以與目标對象中的 “fool”, “fo”, 或者 “football”等在字母f後面連續出現一個或多個字母o的字元串相比對。
/eg*/ 因為上述正規表達式中包含“*”元字元,表示可以與目标對象中的 “easy”, “ego”, 或者 “egg”等在字母e後面連續出現零個或多個字母g的字元串相比對。
/wil?/ 因為上述正規表達式中包含“?”元字元,表示可以與目标對象中的 “win”, 或者“wilson”,等在字母i後面連續出現零個或一個字母l的字元串相比對。
有時候不知道要比對多少字元。為了能适應這種不确定性,正規表達式支援限定符的概念。這些限定符可以指定正規表達式的一個給定元件必須要出現多少次才能滿足比對。
{n} n 是一個非負整數。比對确定的 n 次。例如,'o{2}' 不能比對 "bob" 中的 'o',但是能比對 "food" 中的兩個 o。
{n,} n 是一個非負整數。至少比對 n 次。例如,'o{2,}' 不能比對 "bob" 中的 'o',但能比對 "foooood" 中的所有 o。'o{1,}' 等價于 'o+'。'o{0,}' 則等價于 'o*'。
{n,m} m 和 n 均為非負整數,其中n <= m。最少比對 n 次且最多比對 m 次。例如,"o{1,3}" 将比對 "fooooood" 中的前三個 o。'o{0,1}' 等價于 'o?'。請注意在逗号和兩個數之間不能有空格。
除了元字元之外,使用者還可以精确指定模式在比對對象中出現的頻率。例如,/jim {2,6}/ 上述正規表達式規定字元m可以在比對對象中連續出現2-6次,是以,上述正規表達式可以同jimmy或jimmmmmy等字元串相比對。
在對如何使用正規表達式有了初步了解之後,我們來看一下其它幾個重要的元字元的使用方式。
代碼
\s:用于比對單個空格符,包括tab鍵和換行符;
\s:用于比對除單個空格符之外的所有字元;
\d:用于比對從0到9的數字;
\w:用于比對字母,數字或下劃線字元;
\w:用于比對所有與\w不比對的字元;
. :用于比對除換行符之外的所有字元。
(說明:我們可以把\s和\s以及\w和\w看作互為逆運算)
下面,我們就通過執行個體看一下如何在正規表達式中使用上述元字元。
/\s+/ 上述正規表達式可以用于比對目标對象中的一個或多個空格字元。
/\d000/ 如果我們手中有一份複雜的财務報表,那麼我們可以通過上述正規表達式輕而易舉的查找到所有總額達千元的款項。
除了我們以上所介紹的元字元之外,正規表達式中還具有另外一種較為獨特的專用字元,即定位符。定位符用于規定比對模式在目标對象中的出現位置。 較為常用的定位符包括: “^”, “$”, “\b” 以及 “\b”。
“^”定位符規定比對模式必須出現在目标字元串的開頭
“$”定位符規定比對模式必須出現在目标對象的結尾
“\b”定位符規定比對模式必須出現在目标字元串的開頭或結尾的兩個邊界之一
“\b”定位符則規定比對對象必須位于目标字元串的開頭和結尾兩個邊界之内,
即比對對象既不能作為目标字元串的開頭,也不能作為目标字元串的結尾。
同樣,我們也可以把“^”和“$”以及“\b”和“\b”看作是互為逆運算的兩組定位符。舉例來說: /^hell/ 因為上述正規表達式中包含“^”定位符,是以可以與目标對象中以 “hell”, “hello”或“hellhound”開頭的字元串相比對。 /ar$/ 因為上述正規表達式中包含“$”定位符,是以可以與目标對象中以 “car”, “bar”或 “ar” 結尾的字元串相比對。 /\bbom/ 因為上述正規表達式模式以“\b”定位符開頭,是以可以與目标對象中以 “bomb”, 或 “bom”開頭的字元串相比對。/man\b/ 因為上述正規表達式模式以“\b”定位符結尾,是以可以與目标對象中以
“human”, “woman”或 “man”結尾的字元串相比對。
為了能夠友善使用者更加靈活的設定比對模式,正規表達式允許使用者在比對模式中指定某一個範圍而不局限于具體的字元。例如:
/[a-z]/ 上述正規表達式将會與從a到z範圍内任何一個大寫字母相比對。
/[a-z]/ 上述正規表達式将會與從a到z範圍内任何一個小寫字母相比對。
/[0-9]/ 上述正規表達式将會與從0到9範圍内任何一個數字相比對。
/([a-z][a-z][0-9])+/ 上述正規表達式将會與任何由字母和數字組成的字元串,如 “ab0” 等相比對。
這裡需要提醒使用者注意的一點就是可以在正規表達式中使用 “()” 把字元串組合在一起。“()”符号包含的内容必須同時出現在目标對象中。是以,上述正規表達式将無法與諸如 “abc”等的字元串比對,因為“abc”中的最後一個字元為字母而非數字。
如果我們希望在正規表達式中實作類似程式設計邏輯中的“或”運算,在多個不同的模式中任選一個進行比對的話,可以使用管道符 “|”。例如:/to|too|2/ 上述正規表達式将會與目标對象中的 “to”, “too”, 或 “2” 相比對。
正規表達式中還有一個較為常用的運算符,即否定符 “[^]”。與我們前文所介紹的定位符 “^” 不同,否定符 “[^]”規定目标對象中不能存在模式中所規定的字元串。例如:/[^a-c]/ 上述字元串将會與目标對象中除a,b,和c之外的任何字元相比對。一般 來說,當“^”出現在 “[]”内時就被視做否定運算符;而當“^”位于“[]”之外,或沒有“[]”時,則應當被視做定位符。
最後,當使用者需要在正規表達式的模式中加入元字元,并查找其比對對象時,可以使用轉義符“\”。例如:/th\*/ 上述正規表達式将會與目标對象中的“th*”而非“the”等相比對。
在構造正規表達式之後,就可以象數學表達式一樣來求值,也就是說,可以從左至右并按照一個優先級順序來求值。優先級如下:
1.\ 轉義符
2.(), (?:), (?=), [] 圓括号和方括号
3.*, +, ?, {n}, {n,}, {n,m} 限定符
4.^, $, \anymetacharacter 位置和順序
5.|“或”操作
使用執行個體
在javascript 1.2中帶有一個功能強大的regexp()對象,可以用來進行正規表達式的比對操作。其中的test()方法可以檢驗目标對象中是否包含比對模式,并相應的傳回true或false。
我們可以使用javascript編寫以下腳本,驗證使用者輸入的郵件位址的有效性。
<html>
<head>
<script language="javascript1.2">
<!-- start hiding
function verifyaddress(obj)
{
var email = obj.email.value;
var pattern =
/^([a-za-z0-9_-])+@([a-za-z0-9_-])+(\.[a-za-z0-9_-])+/;
flag = pattern.test(email);
if(flag)
{
alert(“your email address is correct!”);
return true;
}
else
{
alert(“please try again!”);
return false;
}
}
// stop hiding -->
</script>
</head>
<body>
<form onsubmit="return verifyaddress(this);">
<input name="email" type="text">
<input type="submit">
</form>
</body>
</html>
正規表達式對象
本對象包含正規表達式模式以及表明如何應用模式的标志。
文法 1 re = /pattern/[flags]
文法 2 re = new regexp("pattern",["flags"])
參數
re
必選項。将要指派為正規表達式模式的變量名。
pattern
必選項。要使用的正規表達式模式。如果使用文法 1,用 "/" 字元分隔模式。如果用文法 2,用引号将模式引起來。
flags
可選項。如果使用文法 2 要用引号将 flag 引起來。标志可以組合使用,可用的有:
g (全文查找出現的所有 pattern)
i (忽略大小寫)
m (多行查找)
示例
下面的示例建立一個包含正規表達式模式及相關标志的對象(re),向您示範正規表達式對象的用法。在本例中,作為結果的正規表達式對象又用于 match 方法中:
function matchdemo()
{
var r, re; // 聲明變量。
var s = "the rain in spain falls mainly in the plain";
re = new regexp("ain","g"); // 建立正規表達式對象。
r = s.match(re); // 在字元串 s 中查找比對。
return(r);
}
傳回值: ain,ain,ain,ain\\
屬性 lastindex 屬性 | source 屬性\\
方法 compile 方法 | exec 方法 | test 方法\\
要求 版本 3\\
請參閱 regexp 對象 | 正規表達式文法 | string 對象\\
exec 方法
用正規表達式模式在字元串中運作查找,并傳回包含該查找結果的一個數組。
rgexp.exec(str)
參數
rgexp
必選項。包含正規表達式模式和可用标志的正規表達式對象。
str
必選項。要在其中執行查找的 string 對象或字元串文字。
說明\\
如果 exec 方法沒有找到比對,則它傳回 null。如果它找到比對,則 exec 方法傳回一個數組,并且更新全局 regexp 對象的屬性,以反映比對結果。數組的0元素包含了完整的比對,而第1到n元素中包含的是比對中出現的任意一個子比對。這相當于沒有設定全局标志 (g) 的 match 方法。
如果為正規表達式設定了全局标志,exec 從以 lastindex 的值訓示的位置開始查找。如果沒有設定全局标志,exec 忽略 lastindex 的值,從字元串的起始位置開始搜尋。
exec 方法傳回的數組有三個屬性,分别是 input、index 和 lastindex。input 屬性包含了整個被查找的字元串。index 屬性中包含了整個被查找字元串中被比對的子字元串的位置。lastindex 屬性中包含了比對中最後一個字元的下一個位置。
示例\\
下面的例子舉例說明了 exec 方法的用法:
function regexptest()
var ver = number(scriptenginemajorversion() + "." + scriptengineminorversion())
if (ver >= 5.5){ // 測試 jscript 的版本。
var src = "the rain in spain falls mainly in the plain.";
var re = /\w+/g; // 建立正規表達式模式。
var arr;
while ((arr = re.exec(src)) != null)
document.write(arr.index + "-" + arr.lastindex + arr + "\t");
}
else{
alert("請使用 jscript 的更新版本");
傳回值:0-3the 4-8rain 9-11in 12-17spain 18-23falls 24-30mainly 31-33in 34-37the 38-43plain
test 方法\\
傳回一個 boolean 值,它指出在被查找的字元串中是否存在模式。
rgexp.test(str)
參數\\
必選項。包含正規表達式模式或可用标志的正規表達式對象。
必選項。要在其上測試查找的字元串。
說明
test 方法檢查在字元串中是否存在一個模式,如果存在則傳回 true,否則就傳回 false。
全局 regexp 對象的屬性不由 test 方法來修改。
下面的例子舉例說明了 test 方法的用法:
function testdemo(re, s)
var s1; // 聲明變量。
// 檢查字元串是否存在正規表達式。
if (re.test(s)) // 測試是否存在。
s1 = " contains "; // s 包含模式。
else
s1 = " does not contain "; // s 不包含模式。
return("'" + s + "'" + s1 + "'"+ re.source + "'"); // 傳回字元串。
函數調用:document.write (testdemo(/ain+/ ,"the rain in spain falls mainly in the plain."));
傳回值:'the rain in spain falls mainly in the plain.' contains 'ain+'
match 方法
使用正規表達式模式對字元串執行查找,并将包含查找的結果作為數組傳回。\\
stringobj.match(rgexp)
stringobj
必選項。對其進行查找的 string 對象或字元串文字。
必選項。為包含正規表達式模式和可用标志的正規表達式對象。也可以是包含正規表達式模式和可用标志的變量名或字元串文字。
如果 match 方法沒有找到比對,傳回 null。如果找到比對傳回一個數組并且更新全局 regexp 對象的屬性以反映比對結果。
match 方法傳回的數組有三個屬性:input、index 和 lastindex。input 屬性包含整個的被查找字元串。index 屬性包含了在整個被查找字元串中比對的子字元串的位置。lastindex 屬性包含了最後一次比對中最後一個字元的下一個位置。
如果沒有設定全局标志 (g),數組的 0 元素包含整個比對,而第 1 到 n 元素包含了比對中曾出現過的任一個子比對。這相當于沒有設定全局标志的 exec 方法。如果設定了全局标志,元素 0 到 n 中包含所有比對。
下面的示例示範了match 方法的用法:
re = /ain/i; // 建立正規表達式模式。
r = s.match(re); // 嘗試比對搜尋字元串。
return(r); // 傳回第一次出現 "ain" 的地方。
傳回值:ain
本示例說明帶 g 标志設定的 match 方法的用法。
re = /ain/ig; // 建立正規表達式模式。
r = s.match(re); // 嘗試去比對搜尋字元串。
return(r); // 傳回的數組包含了所有 "ain"
// 出現的四個比對。
傳回值:ain,ain,ain,ain
上面幾行代碼示範了字元串文字的 match 方法的用法。
var r, re = "spain";
r = "the rain in spain".replace(re, "canada");
return r;
傳回值:the rain in canada
search 方法
傳回與正規表達式查找内容比對的第一個子字元串的位置。
stringobj.search(rgexp)
必選項。要在其上進行查找的 string 對象或字元串文字。
search 方法指明是否存在相應的比對。如果找到一個比對,search 方法将傳回一個整數值,指明這個比對距離字元串開始的偏移位置。如果沒有找到比對,則傳回 -1。
下面的示例示範了 search 方法的用法。
function searchdemo()
var s = "the rain in spain falls mainly in the plain.";
re = /falls/i; // 建立正規表達式模式。
r = s.search(re); // 查找字元串。
return(r); // 傳回 boolean 結果。
傳回值:18
正規表達式文法
一個正規表達式就是由普通字元(例如字元 a 到 z)以及特殊字元(稱為元字元)組成的文字模式。該模式描述在查找文字主體時待比對的一個或多個字元串。正規表達式作為一個模闆,将某個字元模式與所搜尋的字元串進行比對。
這裡有一些可能會遇到的正規表達式示例:
jscript vbscript 比對
/^\[ \t]*$/ "^\[ \t]*$" 比對一個空白行。
/\d{2}-\d{5}/ "\d{2}-\d{5}" 驗證一個id 号碼是否由一個2位數字,一個連字元以及一個5位數字組成。
/<(.*)>.*<\/\1>/ "<(.*)>.*<\/\1>" 比對一個 html 标記。
下表是元字元及其在正規表達式上下文中的行為的一個完整清單:
字元 描述
\ 将下一個字元标記為一個特殊字元、或一個原義字元、或一個 後向引用、或一個八進制轉義符。例如,'n' 比對字元 "n"。'\n' 比對一個換行符。序列 '\\' 比對 "\" 而 "\(" 則比對 "("。
^ 比對輸入字元串的開始位置。如果設定了 regexp 對象的 multiline 屬性,^ 也比對 '\n' 或 '\r' 之後的位置。
$ 比對輸入字元串的結束位置。如果設定了regexp 對象的 multiline 屬性,$ 也比對 '\n' 或 '\r' 之前的位置。
* 比對前面的子表達式零次或多次。例如,zo* 能比對 "z" 以及 "zoo"。 * 等價于{0,}。
+ 比對前面的子表達式一次或多次。例如,'zo+' 能比對 "zo" 以及 "zoo",但不能比對 "z"。+ 等價于 {1,}。
? 比對前面的子表達式零次或一次。例如,"do(es)?" 可以比對 "do" 或 "does" 中的"do" 。? 等價于 {0,1}。
{n} n 是一個非負整數。比對确定的 n 次。例如,'o{2}' 不能比對 "bob" 中的 'o',但是能比對 "food" 中的兩個 o。
{n,} n 是一個非負整數。至少比對n 次。例如,'o{2,}' 不能比對 "bob" 中的 'o',但能比對 "foooood" 中的所有 o。'o{1,}' 等價于 'o+'。'o{0,}' 則等價于 'o*'。
{n,m} m 和 n 均為非負整數,其中n <= m。最少比對 n 次且最多比對 m 次。劉, "o{1,3}" 将比對 "fooooood" 中的前三個 o。'o{0,1}' 等價于 'o?'。請注意在逗号和兩個數之間不能有空格。
? 當該字元緊跟在任何一個其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 後面時,比對模式是非貪婪的。非貪婪模式盡可能少的比對所搜尋的字元串,而預設的貪婪模式則盡可能多的比對所搜尋的字元串。例如,對于字元串 "oooo",'o+?' 将比對單個 "o",而 'o+' 将比對所有 'o'。
. 比對除 "\n" 之外的任何單個字元。要比對包括 '\n' 在内的任何字元,請使用象 '[.\n]' 的模式。
(pattern) 比對pattern 并擷取這一比對。所擷取的比對可以從産生的 matches 集合得到,在vbscript 中使用 submatches 集合,在jscript 中則使用 $0…$9 屬性。要比對圓括号字元,請使用 '\(' 或 '\)'。
(?:pattern) 比對 pattern 但不擷取比對結果,也就是說這是一個非擷取比對,不進行存儲供以後使用。這在使用 "或" 字元 (|) 來組合一個模式的各個部分是很有用。例如, 'industr(?:y|ies) 就是一個比 'industry|industries' 更簡略的表達式。
(?=pattern) 正向預查,在任何比對 pattern 的字元串開始處比對查找字元串。這是一個非擷取比對,也就是說,該比對不需要擷取供以後使用。例如, 'windows (?=95|98|nt|2000)' 能比對 "windows 2000" 中的 "windows" ,但不能比對 "windows 3.1" 中的 "windows"。預查不消耗字元,也就是說,在一個比對發生後,在最後一次比對之後立即開始下一次比對的搜尋,而不是從包含預查的字元之後開始。
(?!pattern) 負向預查,在任何不比對negative lookahead matches the search string at any point where a string not matching pattern 的字元串開始處比對查找字元串。這是一個非擷取比對,也就是說,該比對不需要擷取供以後使用。例如'windows (?!95|98|nt|2000)' 能比對 "windows 3.1" 中的
"windows",但不能比對 "windows 2000" 中的 "windows"。預查不消耗字元,也就是說,在一個比對發生後,在最後一次比對之後立即開始下一次比對的搜尋,而不是從包含預查的字元之後開始
x|y 比對 x 或 y。例如,'z|food' 能比對 "z" 或 "food"。'(z|f)ood' 則比對 "zood" 或 "food"。
[xyz] 字元集合。比對所包含的任意一個字元。例如, '[abc]' 可以比對 "plain" 中的 'a'。
[^xyz] 負值字元集合。比對未包含的任意字元。例如, '[^abc]' 可以比對 "plain" 中的'p'。
[a-z] 字元範圍。比對指定範圍内的任意字元。例如,'[a-z]' 可以比對 'a' 到 'z' 範圍内的任意小寫字母字元。
[^a-z] 負值字元範圍。比對任何不在指定範圍内的任意字元。例如,'[^a-z]' 可以比對任何不在 'a' 到 'z' 範圍内的任意字元。
\b 比對一個單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以比對"never" 中的 'er',但不能比對 "verb" 中的 'er'。
\b 比對非單詞邊界。'er\b' 能比對 "verb" 中的 'er',但不能比對 "never" 中的 'er'。
\cx 比對由x指明的控制字元。例如, \cm 比對一個 control-m 或回車符。 x 的值必須為 a-z 或 a-z 之一。否則,将 c 視為一個原義的 'c' 字元。
\d 比對一個數字字元。等價于 [0-9]。
\d 比對一個非數字字元。等價于 [^0-9]。
\f 比對一個換頁符。等價于 \x0c 和 \cl。
\n 比對一個換行符。等價于 \x0a 和 \cj。
\r 比對一個回車符。等價于 \x0d 和 \cm。
\s 比對任何空白字元,包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。
\s 比對任何非空白字元。等價于 [^ \f\n\r\t\v]。
\t 比對一個制表符。等價于 \x09 和 \ci。
\v 比對一個垂直制表符。等價于 \x0b 和 \ck。
\w 比對包括下劃線的任何單詞字元。等價于'[a-za-z0-9_]'。
\w 比對任何非單詞字元。等價于 '[^a-za-z0-9_]'。
\xn 比對 n,其中 n 為十六進制轉義值。十六進制轉義值必須為确定的兩個數字長。例如, '\x41' 比對 "a"。'\x041' 則等價于 '\x04' & "1"。正規表達式中可以使用 ascii 編碼。.
\num 比對 num,其中 num 是一個正整數。對所擷取的比對的引用。例如,'(.)\1' 比對兩個連續的相同字元。
\n 辨別一個八進制轉義值或一個後向引用。如果 \n 之前至少 n 個擷取的子表達式,則 n 為後向引用。否則,如果 n 為八進制數字 (0-7),則 n 為一個八進制轉義值。
\nm 辨別一個八進制轉義值或一個後向引用。如果 \nm 之前至少有is preceded by at least nm 個擷取得子表達式,則 nm 為後向引用。如果 \nm 之前至少有 n 個擷取,則 n 為一個後跟文字 m 的後向引用。如果前面的條件都不滿足,若 n 和 m 均為八進制數字 (0-7),則 \nm 将比對八進制轉義值 nm。
\nml 如果 n 為八進制數字 (0-3),且 m 和 l 均為八進制數字 (0-7),則比對八進制轉義值 nml。
\un 比對 n,其中 n 是一個用四個十六進制數字表示的 unicode 字元。例如, \u00a9 比對版權符号 (?)。
優先權順序
在構造正規表達式之後,就可以象數學表達式一樣來求值,也就是說,可以從左至右并按照一個優先權順序來求值。
下表從最高優先級到最低優先級列出各種正規表達式操作符的優先權順序:
操作符 描述
\ 轉義符
(), (?:), (?=), [] 圓括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, \anymetacharacter 位置和順序
| “或”操作
普通字元
普通字元由所有那些未顯式指定為元字元的列印和非列印字元組成。這包括所有的大寫和小寫字母字元,所有數字,所有标點符号以及一些符号。
最簡單的正規表達式是一個單獨的普通字元,可以比對所搜尋字元串中的該字元本身。例如,單字元模式 'a' 可以比對所搜尋字元串中任何位置出現的字母 'a'。這裡有一些單字元正規表達式模式的示例:
/a/
/7/
/m/
等價的 vbscript 單字元正規表達式為:
"a"
"7"
"m"
可以将多個單字元組合在一起得到一個較大的表達式。例如,下面的 jscript 正規表達式不是别的,就是通過組合單字元表達式 'a'、'7'以及 'm' 所建立出來的一個表達式。
/a7m/
等價的 vbscript 表達式為:
"a7m"
請注意這裡沒有連接配接操作符。所需要做的就是将一個字元放在了另一個字元後面