天天看點

java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

目錄

字元符号

咋比對呢?

三種比對模式:

find() (任意區域部分比對)

lookingAt()(從目标字元串的開頭開始比對,如配不上,就不往下找了)懶人配比對🙆

matches() (将整個目标字元串與模式比對,配得上就true,反之false)

使用正規表達式進行替換

replaceFirst 和replaceAll 方法

簡單談一談組

字元符号

首先要要了解字元類是啥,舉個栗子,現在我們要從一大堆文章裡找出這麼“XXX”一種組合的字元串,那麼字元類就是這其中的每個X的比對要求了,Java常用的比對字元如下(摘自W3CSCHOOL):(空格換行回車都可以看作是字元)

字元 說明
\ 将下一字元标記為特殊字元、文本、反向引用或八進制轉義符。例如,"n"比對字元"n"。"\n"比對換行符。序列"\\"比對"\","\("比對"("。
^ 比對輸入字元串開始的位置。如果設定了 RegExp 對象的 Multiline 屬性,^ 還會與"\n"或"\r"之後的位置比對。
$ 比對輸入字元串結尾的位置。如果設定了 RegExp 對象的 Multiline 屬性,$ 還會與"\n"或"\r"之前的位置比對。
* 零次或多次比對前面的字元或子表達式。例如,zo* 比對"z"和"zoo"。* 等效于 {0,}。
+ 一次或多次比對前面的字元或子表達式。例如,"zo+"與"zo"和"zoo"比對,但與"z"不比對。+ 等效于 {1,}。
? 零次或一次比對前面的字元或子表達式。例如,"do(es)?"比對"do"或"does"中的"do"。? 等效于 {0,1}。
{n} n 是非負整數。正好比對 n 次。例如,"o{2}"與"Bob"中的"o"不比對,但與"food"中的兩個"o"比對。
{n,} n 是非負整數。至少比對 n 次。例如,"o{2,}"不比對"Bob"中的"o",而比對"foooood"中的所有 o。"o{1,}"等效于"o+"。"o{0,}"等效于"o*"。
{n,m} M 和 n 是非負整數,其中 n <= m。比對至少 n 次,至多 m 次。例如,"o{1,3}"比對"fooooood"中的頭三個 o。'o{0,1}' 等效于 'o?'。注意:您不能将空格插入逗号和數字之間。
? 當此字元緊随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之後時,比對模式是"非貪心的"。"非貪心的"模式比對搜尋到的、盡可能短的字元串,而預設的"貪心的"模式比對搜尋到的、盡可能長的字元串。例如,在字元串"oooo"中,"o+?"隻比對單個"o",而"o+"比對所有"o"。
. 比對除"\r\n"之外的任何單個字元。若要比對包括"\r\n"在内的任意字元,請使用諸如"[\s\S]"之類的模式。
(pattern) 比對 pattern 并捕獲該比對的子表達式。可以使用 $0…$9 屬性從結果"比對"集合中檢索捕獲的比對。若要比對括号字元 ( ),請使用"\("或者"\)"。
(?:pattern) 比對 pattern 但不捕獲該比對的子表達式,即它是一個非捕獲比對,不存儲供以後使用的比對。這對于用"or"字元 (|) 組合模式部件的情況很有用。例如,'industr(?:y|ies) 是比 'industry|industries' 更經濟的表達式。
(?=pattern) 執行正向預測先行搜尋的子表達式,該表達式比對處于比對 pattern 的字元串的起始點的字元串。它是一個非捕獲比對,即不能捕獲供以後使用的比對。例如,'Windows (?=95|98|NT|2000)' 比對"Windows 2000"中的"Windows",但不比對"Windows 3.1"中的"Windows"。預測先行不占用字元,即發生比對後,下一比對的搜尋緊随上一比對之後,而不是在組成預測先行的字元後。
(?!pattern) 執行反向預測先行搜尋的子表達式,該表達式比對不處于比對 pattern 的字元串的起始點的搜尋字元串。它是一個非捕獲比對,即不能捕獲供以後使用的比對。例如,'Windows (?!95|98|NT|2000)' 比對"Windows 3.1"中的 "Windows",但不比對"Windows 2000"中的"Windows"。預測先行不占用字元,即發生比對後,下一比對的搜尋緊随上一比對之後,而不是在組成預測先行的字元後。
x|y 比對 x 或 y。例如,'z|food' 比對"z"或"food"。'(z|f)ood' 比對"zood"或"food"。
[xyz] 字元集。比對包含的任一字元。例如,"[abc]"比對"plain"中的"a"。
[^xyz] 反向字元集。比對未包含的任何字元。例如,"[^abc]"比對"plain"中"p","l","i","n"。
[a-z] 字元範圍。比對指定範圍内的任何字元。例如,"[a-z]"比對"a"到"z"範圍内的任何小寫字母。
[^a-z] 反向範圍字元。比對不在指定的範圍内的任何字元。例如,"[^a-z]"比對任何不在"a"到"z"範圍内的任何字元。
\b 比對一個字邊界,即字與空格間的位置。例如,"er\b"比對"never"中的"er",但不比對"verb"中的"er"。
\B 非字邊界比對。"er\B"比對"verb"中的"er",但不比對"never"中的"er"。
\cx 比對 x 訓示的控制字元。例如,\cM 比對 Control-M 或回車符。x 的值必須在 A-Z 或 a-z 之間。如果不是這樣,則假定 c 就是"c"字元本身。
\d 數字字元比對。等效于 [0-9]。
\D 非數字字元比對。等效于 [^0-9]。
\f 換頁符比對。等效于 \x0c 和 \cL。
\n 換行符比對。等效于 \x0a 和 \cJ。
\r 比對一個回車符。等效于 \x0d 和 \cM。
\s 比對任何空白字元,包括空格、制表符、換頁符等。與 [ \f\n\r\t\v] 等效。
\S 比對任何非空白字元。與 [^ \f\n\r\t\v] 等效。
\t 制表符比對。與 \x09 和 \cI 等效。
\v 垂直制表符比對。與 \x0b 和 \cK 等效。
\w 比對任何字類字元,包括下劃線。與"[A-Za-z0-9_]"等效。
\W 與任何非單詞字元比對。與"[^A-Za-z0-9_]"等效。
\xn 比對 n,此處的 n 是一個十六進制轉義碼。十六進制轉義碼必須正好是兩位數長。例如,"\x41"比對"A"。"\x041"與"\x04"&"1"等效。允許在正規表達式中使用 ASCII 代碼。
\num 比對 num,此處的 num 是一個正整數。到捕獲比對的反向引用。例如,"(.)\1"比對兩個連續的相同字元。
\n 辨別一個八進制轉義碼或反向引用。如果 \n 前面至少有 n 個捕獲子表達式,那麼 n 是反向引用。否則,如果 n 是八進制數 (0-7),那麼 n 是八進制轉義碼。
\nm 辨別一個八進制轉義碼或反向引用。如果 \nm 前面至少有 nm 個捕獲子表達式,那麼 nm 是反向引用。如果 \nm 前面至少有 n 個捕獲,則 n 是反向引用,後面跟有字元 m。如果兩種前面的情況都不存在,則 \nm 比對八進制值 nm,其中 n 和 m 是八進制數字 (0-7)。
\nml 當 n 是八進制數 (0-3),m 和 l 是八進制數 (0-7) 時,比對八進制轉義碼 nml。
\un 比對 n,其中 n 是以四位十六進制數表示的 Unicode 字元。例如,\u00A9 比對版權符号 (©)。

注意:

  • 使用要将 \d 寫成 \\d 的轉義形式,其他的也同樣
  • \b 表示邊界字元,它是字與空格之間的位置,例如 "hello world" 中的 'h','o','w','d'都是邊界字元
  • 可以使用 ".*" 組合來比對不為 \r\n的任意長度的字元

咋比對呢?

此處要使用java.util.regex包下的兩個類(該包下隻有兩個類)

  • Pattern (比對模式)
  • Matcher (比對器)

Pattern用來設定我們自定義的比對模式,是單例設計模式,是以隻能使用Pattern.compile(String regex)來擷取一個Pattern對象,可加一個參數 int flags 用來設定一些标準的比對模式(regex所定義的字元串在下文統稱為模式 )

示例:

public static void main(String[] args) {
        String regex ="[afk][0-9][^mf]";
        Pattern pattern=Pattern.compile(regex,Pattern.CASE_INSENSITIVE);//預定義忽略大小寫模式
        String targetString="mkjlma3Pjgna";
        Matcher matcher=pattern.matcher(targetString);
        while(matcher.find()) System.out.println(matcher.group());
    }
           

結果:a3P

Pattern定義的flags常量表如下:

Flag 描述
Pattern.CANON_EQ 啟用規範等效。
Pattern.CASE_INSENSITIVE 啟用不區分大小寫的比對。
Pattern.COMMENTS 啟用不區分大小寫的比對。...
Pattern.DOTALL

允許在模式中的空格和注釋。

忽略以#開頭的空格和嵌入的注釋,直到行的結尾。

Pattern.LITERAL 啟用模式的文字解析。 這個标志使元字元和轉義序列作為正常字元。
Pattern.MULTILINE 啟用多行模式。 預設情況下,^和$比對輸入序列的開始和結束。 此标志使模式僅逐行比對或輸入序列的末尾。
Pattern.UNICODE_CASE 啟用支援Unicode的大小寫。 與CASE_INSENSITIVE标志一起,可以根據Unicode标準執行不區分大小寫的比對。
Pattern.UNICODE_ CHARACTER_CLASS 啟用預定義字元類和POSIX字元類的Unicode版本。 設定此标志時,預定義字元類和POSIX字元類符合Unicode技術标準。
Pattern.UNIX_LINES 啟用Unix行模式。 設定此标志時,隻有\ n字元被識别為行終止符。

接下來談談比對器Matcher,顧名思義,它是用來比對字元串的引擎,pattern.matcher(String target) 通過已有的比對模式和比對對象來建構Matcher對象,常用方法如下:

方法及說明

public int start()

傳回以前比對的初始索引。

public int start(int group)

 傳回在以前的比對操作期間,由給定組所捕獲的子序列的初始索引

public int end()

傳回最後比對字元之後的偏移量。

public int end(int group)

傳回在以前的比對操作期間,由給定組所捕獲子序列的最後字元之後的偏移量。

public boolean lookingAt()

 嘗試将從區域開頭開始的輸入序列與該模式比對。

public boolean find()

嘗試查找與該模式比對的輸入序列的下一個子序列。

public boolean find(int start)

重置此比對器,然後嘗試查找比對該模式、從指定索引開始的輸入序列的下一個子序列。

public boolean matches()

嘗試将整個區域與模式比對。

public Matcher appendReplacement(StringBuffer sb, String replacement)

實作非終端添加和替換步驟。

public StringBuffer appendTail(StringBuffer sb)

實作終端添加和替換步驟。

public String replaceAll(String replacement)

 替換模式與給定替換字元串相比對的輸入序列的每個子序列。

public String replaceFirst(String replacement)

 替換模式與給定替換字元串比對的輸入序列的第一個子序列。

public static String quoteReplacement(String s)

傳回指定字元串的字面替換字元串。這個方法傳回一個字元串,就像傳遞給Matcher類的appendReplacement 方法一個字面字元串一樣工作。

示例:

public static void main(String[] args) {
        String regex="[hkj]\\w";
        Pattern pattern=Pattern.compile(regex,Pattern.CASE_INSENSITIVE);
        String string="hello world";
        Matcher matcher=pattern.matcher(string);
        while(matcher.find()){
            System.out.println(string.substring(matcher.start(),matcher.end()));
            System.out.println(matcher.group());
        }
    }
           

結果:he he

三種比對模式:

find() (任意區域部分比對)

在定義好比對器後,如果使用find()方法,那麼Matcher将會根據模式逐次比對,調用一次find()就尋找一次(假設字元串内有多次比對的話)

示例:

public static void main(String[] args) {
        String targetString="A man is not old as long as he is seeking something";
        String regex="\\b\\ws\\b";//一個字元加一個's',左右兩邊都為邊界
        Pattern pattern=Pattern.compile(regex);
        Matcher matcher=pattern.matcher(targetString);
        int count=0;
        while(matcher.find()){
            count++;
            System.out.println(matcher.group());
        }
        System.out.println("totally find:"+count);
    }
           
java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

lookingAt()(從目标字元串的開頭開始比對,如配不上,就不往下找了)懶人配比對🙆

示例:

public static void main(String[] args) {
        String targetString1="A man is not old as long as he is seeking something";
        String targetString2="is not old as long as he is seeking something";
        String regex="\\b\\ws\\b";//一個字元加一個's',左右兩邊都為邊界
        Pattern pattern=Pattern.compile(regex);
        Matcher matcher1=pattern.matcher(targetString1);
        if(matcher1.lookingAt()) System.out.println(matcher1.group());
        else System.out.println("NO found!");
        Matcher matcher2=pattern.matcher(targetString2);
        if(matcher2.lookingAt()) System.out.println(matcher2.group());
    }
           
java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

matches() (将整個目标字元串與模式比對,配得上就true,反之false)

示例:

public static void main(String[] args) {
        String targetString1="A man is not old as long as he is seeking something";
        String targetString2="as long as he is seeking something";
        String regex="\\bas.*";//一個字元加一個's',左右兩邊都為邊界
        Pattern pattern=Pattern.compile(regex);
        Matcher matcher1=pattern.matcher(targetString1);
        if(matcher1.matches()) System.out.println(matcher1.group());
        else System.out.println("NO found!");
        Matcher matcher2=pattern.matcher(targetString2);
        if(matcher2.matches()) System.out.println(matcher2.group());
        else System.out.println("NO found!");
    }
           
java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

敲黑闆!

在String類裡提供了一個matches()可以很友善的使用這種比對模式,如下:

public static void main(String[] args) {
        System.out.println("hello world".matches("\\bhello\\s"));
        System.out.println("hello world".matches("\\bhello.*"));
    }
           
java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

使用正規表達式進行替換

replaceFirst 和replaceAll 方法

replaceFirst 和replaceAll 方法用來替換比對正規表達式的文本。不同的是,replaceFirst 替換首次比對,replaceAll 替換所有比對

示例:

public static void main(String[] args) {
        String targetString1="A man is not old as long as he is seeking something";
        String regex="\\bis\\b";//一個字元加一個's',左右兩邊都為邊界
        Pattern pattern=Pattern.compile(regex);
        Matcher matcher1=pattern.matcher(targetString1);
        String result =matcher1.replaceFirst("IS");
        String result2 =matcher1.replaceAll("IS");
        System.out.println(result);
        System.out.println(result2);
    }
           
java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

簡單談一談組

為啥要分組呢?設想當我們要從一堆資訊裡面查詢一個身份證号并擷取此人的出生年月日,那麼我麼就要先查詢身份證号再對其進行分解分解,而使用組我們就可以一步完成這個操作了

示例:

public static void main(String[] args) {
        String targetString="我今天撿了兩張身份證,一張是345987199908304534,還有一張是889600200005201211,我把它交給了警察叔叔";
        String regex="(\\d{6})(\\d{4})(\\d{2})(\\d{2})(\\d{4})";
        Pattern pattern=Pattern.compile(regex);
        Matcher matcher=pattern.matcher(targetString);
        while(matcher.find()){
            System.out.println(matcher.group());
            System.out.println("此人生日:"+matcher.group(2)+"年"+matcher.group(3)+"月"+matcher.group(4)+"日");
        }
    }
           
java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

注:組從 1 開始算起

java正規表達式字元符号咋比對呢?三種比對模式:使用正規表達式進行替換簡單談一談組

繼續閱讀