天天看點

java.util.regex

(記從前看的一篇文章)

java.util.regex是一個用正規表達式所訂制的模式來對字元串進行比對工作的類庫包。

1.簡介

它包括兩個類:Pattern和Matcher 。

Pattern: 一個Pattern是一個正規表達式經編譯後的表現模式。

Matcher: 一個Matcher對象是一個狀态機器,它依據Pattern對象做為比對模式對字元串展開比對檢查。

首先一個Pattern執行個體訂制了一個所用文法與PERL的類似的正規表達式經編譯後的模式,然後一個Matcher執行個體在這個給定的Pattern執行個體的模式控制下進行字元串的比對工作。

2.Pattern類

Pattern的方法如下:

static Pattern compile(String regex) 
  将給定的正規表達式編譯并賦予給Pattern類 
static Pattern compile(String regex, int flags) 
  同上,但增加flag參數的指定,可選的flag參數包括:CASE INSENSITIVE,MULTILINE,DOTALL,UNICODE CASE, CANON EQ 
int flags() 
  傳回目前Pattern的比對flag參數. 
Matcher matcher(CharSequence input) 
  生成一個給定命名的Matcher對象 
static boolean matches(String regex, CharSequence input) 
  編譯給定的正規表達式并且對輸入的字串以該正規表達式為模開展比對,該方法适合于該正規表達式隻會使用一次的情況,也就是隻進行一次比對工作,因為這種情況下并不需要生   成一個Matcher執行個體。 
String pattern() 
  傳回該Patter對象所編譯的正規表達式。 
String[] split(CharSequence input) 
  将目标字元串按照Pattern裡所包含的正規表達式為模進行分割。 
String[] split(CharSequence input, int limit) 
  作用同上,增加參數limit目的在于要指定分割的段數,如将limi設為2,那麼目标字元串将根據正規表達式分為割為兩段。 
           

一個正規表達式,也就是一串有特定意義的字元,必須首先要編譯成為一個Pattern類的執行個體,這個Pattern對象将會使用matcher()方法來生成一個Matcher執行個體,接着便可以使用該 Matcher執行個體以編譯的正規表達式為基礎對目标字元串進行比對工作,多個Matcher是可以共用一個Pattern對象的。

一個簡單的例子,看如何生成一個Pattern對象并且編譯一個正規表達式,最後根據這個正規表達式将目标字元串進行分割:

import java.util.regex.*;

public class Temp {
	public static void main(String[] args) throws Exception {
		// 生成一個Pattern,同時編譯一個正規表達式
		Pattern p = Pattern.compile("[/]+");
		// 用Pattern的split()方法把字元串按"/"分割
		String[] result = p.split("Iit is a good film. / 這是一部好電影。/名詞:電影。");
		for (int i = 0; i < result.length; i++)
			System.out.println(result[i]);
	}
}
           

運作結果

Iit is a good film. 
 這是一部好電影。
名詞:電影。
           

3.Matcher類

Matcher方法如下: Matcher appendReplacement(StringBuffer sb, String replacement)

将目前比對子串替換為指定字元串,并且将替換後的子串以及其之前到上次比對子串之後的字元串段添加到一個StringBuffer對象裡

StringBuffer appendTail(StringBuffer sb) 
  将最後一次比對工作後剩餘的字元串添加到一個StringBuffer對象裡。 
int end() 
  傳回目前比對的子串的最後一個字元在原目标字元串中的索引位置 。 
int end(int group) 
  傳回與比對模式裡指定的組相比對的子串最後一個字元的位置。 
boolean find() 
  嘗試在目标字元串裡查找下一個比對子串。 
boolean find(int start) 
  重設Matcher對象,并且嘗試在目标字元串裡從指定的位置開始查找下一個比對的子串。 
String group() 
  傳回目前查找而獲得的與組比對的所有子串内容 
String group(int group) 
  傳回目前查找而獲得的與指定的組比對的子串内容 
int groupCount() 
  傳回目前查找所獲得的比對組的數量。 
boolean lookingAt() 
  檢測目标字元串是否以比對的子串起始。 
boolean matches() 
  嘗試對整個目标字元展開比對檢測,也就是隻有整個目标字元串完全比對時才傳回真值。 
Pattern pattern() 
  傳回該Matcher對象的現有比對模式,也就是對應的Pattern 對象。 
String replaceAll(String replacement) 
  将目标字元串裡與既有模式相比對的子串全部替換為指定的字元串。 
String replaceFirst(String replacement) 
  将目标字元串裡第一個與既有模式相比對的子串替換為指定的字元串。 
Matcher reset() 
  重設該Matcher對象。 
Matcher reset(CharSequence input) 
  重設該Matcher對象并且指定一個新的目标字元串。 
int start() 
  傳回目前查找所獲子串的開始字元在原目标字元串中的位置。 
int start(int group) 
  傳回目前查找所獲得的和指定組比對的子串的第一個字元在原目标字元串中的位置。 
(光看方法的解釋是不是很不好了解?不要急,待會結合例子就比較容易明白了)

           

一個Matcher執行個體是被用來對目标字元串進行基于既有模式(也就是一個給定的Pattern所編譯的正規表達式)進行比對查找的,所有往Matcher的輸入都是通過CharSequence接口提供的,這樣做的目的在于可以支援對從多元化的資料源所提供的資料進行比對工作。

★matches()/lookingAt ()/find(): 
一個Matcher對象是由一個Pattern對象調用其matcher()方法而生成的,一旦該Matcher對象生成,它就可以進行三種不同的比對查找操作: 
matches()方法嘗試對整個目标字元展開比對檢測,也就是隻有整個目标字元串完全比對時才傳回真值。 
lookingAt ()方法将檢測目标字元串是否以比對的子串起始。 
find()方法嘗試在目标字元串裡查找下一個比對子串。 
以上三個方法都将傳回一個布爾值來表明成功與否。 
★replaceAll ()/appendReplacement()/appendTail(): 
Matcher類同時提供了四個将比對子串替換成指定字元串的方法: 
replaceAll() 
replaceFirst() 
appendReplacement() 
appendTail() 
replaceAll()與replaceFirst()的用法都比較簡單,請看上面方法的解釋。我們主要重點了解一下appendReplacement()和appendTail()方法。 
appendReplacement(StringBuffer sb, String replacement) 将目前比對子串替換為指定字元串,并且将替換後的子串以及其之前到上次比對子串之後的字元串段添加到一個StringBuffer對象裡,而appendTail(StringBuffer sb) 方法則将最後一次比對工作後剩餘的字元串添加到一個StringBuffer對象裡。

           

例如,有字元串fatcatfatcatfat,假設既有正規表達式模式為"cat",第一次比對後調用appendReplacement(sb,“dog”),那麼這時StringBuffer sb的内容為fatdog,也就是fatcat中的cat被替換為dog并且與比對子串前的内容加到sb裡,而第二次比對後調用appendReplacement(sb,“dog”),那麼sb的内容就變為fatdogfatdog,如果最後再調用一次appendTail(sb),那麼sb最終的内容将是fatdogfatdogfat。

import java.util.regex.*;

public class Temp {
	public static void main(String[] args) throws Exception {
		// 生成Pattern對象并且編譯一個簡單的正規表達式"Kelvin"
		Pattern p = Pattern.compile("Kevin");
		// 用Pattern類的matcher()方法生成一個Matcher對象
		Matcher m = p.matcher("Kelvin Li and Kelvin Chan are both working in Kelvin Chen's KelvinSoftShop company");
		StringBuffer sb = new StringBuffer();
		int i = 0;
		// 使用find()方法查找第一個比對的對象
		boolean result = m.find();
		// 使用循環将句子裡所有的kelvin找出并替換再将内容加到sb裡
		while (result) {
			i++;
			m.appendReplacement(sb, "Kevin");
			System.out.println("第" + i + "次比對後sb的内容是:" + sb);
			// 繼續查找下一個比對對象
			result = m.find();
		}
		// 最後調用appendTail()方法将最後一次比對後的剩餘字元串加到sb裡;
		m.appendTail(sb);
		System.out.println("調用m.appendTail(sb)後sb的最終内容是:" + sb.toString());
	}
}
           

運作結果:

第1次比對後sb的内容是:Kevin 
第2次比對後sb的内容是:Kevin Li and Kevin 
第3次比對後sb的内容是:Kevin Li and Kevin Chan are both working in Kevin 
第4次比對後sb的内容是:Kevin Li and Kevin Chan are both working in Kevin Chen's Kevin 
調用m.appendTail(sb)後sb的最終内容是:Kevin Li and Kevin Chan are both working in Kevin Chen's KevinSoftShop company. 
           

★group()/group(int group)/groupCount():

4.正規表達式規則

字元   
x 字元 x 
\\ 反斜線字元 
\0n 八進制值的字元0n (0 <= n <= 7) 
\0nn 八進制值的字元 0nn (0 <= n <= 7) 
\0mnn 八進制值的字元0mnn 0mnn (0 <= m <= 3, 0 <= n <= 7) 
\xhh 十六進制值的字元0xhh 
\uhhhh 十六進制值的字元0xhhhh 
\t 制表符('\u0009') 
\n 換行符 ('\u000A') 
\r 回車符 ('\u000D') 
\f 換頁符 ('\u000C') 
\a 響鈴符 ('\u0007') 
\e 轉義符 ('\u001B') 
\cx T對應于x的控制字元 x 
  
字元類 
[abc] a, b, or c (簡單類) 
[^abc] 除了a、b或c之外的任意 字元(求反) 
[a-zA-Z] a到z或A到Z ,包含(範圍) 
[a-z-[bc]] a到z,除了b和c : [ad-z](減去) 
[a-z-[m-p]] a到z,除了m到 p: [a-lq-z] 
[a-z-[^def]] d, e, 或 f 
備注:
方括号的正規表達式“t[aeio]n”隻比對“tan”、“Ten”、“tin”和“ton”,隻能比對單個字元。
圓括号,因為方括号隻允許比對單個字元;故比對多個字元時使用圓括号“()”。比如使用“t(a|e|i|o|oo)n”正規表達式,就必須用圓括号。
預定義的字元類 
. 任意字元(也許能與行終止符比對,也許不能) 備注:句點符号代表任意一個字元。比如:表達式就是“t.n”,它比對“tan”、“ten”、“tin”和“ton”,還比對“t#n”、“tpn”甚至“t n”。
\d 數字: [0-9] 
\D 非數字: [^0-9] 
\s 空格符: [ \t\n\x0B\f\r] 
\S 非空格符: [^\s] 
\w 單詞字元: [a-zA-Z_0-9] 
\W 非單詞字元: [^\w]
表達次數的符号
符号 次數
* 0次或者多次
+ 1次或者多次
? 0次或者1次
{n} 恰好n次
{n,m} 從n次到m次

           

繼續閱讀