天天看點

Java正規表達式--Matcher.group函數的深度用法

最近學習正規表達式,發現Java中的一些術語與其他地方描述的有所差異。比如Java正規表達式中的“組”概念與《正規表達式必知必會》一書中講述的“子表達式”其實是一樣的,隻是表述不同而已。由此也引發了使用JavaAPI時對group(int group)、start(int group)、end(int group)以及group()不是太了解。在閱讀了關于正規表達式問題:有誰用過Matcher類的group()方法沒有 之後徹底明白,并寫了一個小程式測試。

  1. package cn.mingyuan.regexp.singlecharacter;  
  2. import java.util.regex.Matcher;  
  3. import java.util.regex.Pattern;  
  4. public class GroupIndexAndStartEndIndexTest {  
  5. public static void main(String[] args) {  
  6.    // TODO Auto-generated method stub  
  7.    String str = "Hello,World! in Java.";  
  8.    Pattern pattern = Pattern.compile("W(or)(ld!)");  
  9.    Pattern pattern2 = Pattern.compile("W|or|ld!");  
  10.    Matcher matcher = pattern.matcher(str);  
  11.    Matcher matcher2 = pattern2.matcher(str);  
  12.    while(matcher.find()){  
  13.     System.out.println("Group 0:"+matcher.group(0));//得到第0組——整個比對  
  14.     System.out.println("Group 1:"+matcher.group(1));//得到第一組比對——與(or)比對的  
  15.     System.out.println("Group 2:"+matcher.group(2));//得到第二組比對——與(ld!)比對的,組也就是子表達式  
  16.     System.out.println("Start 0:"+matcher.start(0)+" End 0:"+matcher.end(0));//總比對的索引  
  17.     System.out.println("Start 1:"+matcher.start(1)+" End 1:"+matcher.end(1));//第一組比對的索引  
  18.     System.out.println("Start 2:"+matcher.start(2)+" End 2:"+matcher.end(2));//第二組比對的索引  
  19.     System.out.println(str.substring(matcher.start(0),matcher.end(1)));//從總比對開始索引到第1組比對的結束索引之間子串——Wor  
  20.    }  
  21. // 循環三次(以“|”分割成數組)
  22.    while(matcher2.find()){  
  23.     System.out.println("Group :"+matcher2.group());//得到以“|”分割的比對的str
  24.     System.out.println("Start :"+matcher2.start()+" End :"+matcher2.end());//比對的索引  位置 
  25.    } 
  26. }  
  27. }  

程式的運作結果為: 

  1. Group 0:World!  
  2. Group 1:or  
  3. Group 2:ld!  
  4. Start 0:6 End 0:12  
  5. Start 1:7 End 1:9  
  6. Start 2:9 End 2:12  
  1. Group :W  
  2. Group :or  
  3. Group :ld!  
  4. Start :6 End :12  
  5. Start :7 End :9  
  6. Start :9 End :12  

結:兩次結果不一樣,其實group(),start(),end()所帶的參數i就是正規表達式中的子表達式索引(第幾個子表達式),由于剛開始對Java正規表達式中的組的概念不清晰,導緻了解困難。當将“組”的概念與“子表達式”對應起來之後,了解matcher的group,start,end就完全沒有障礙了。其中對于“|”和“()”的分割符号需要根據不同場景自行應用正确的方式。