Java正则（1）— Pattern 详解（一）

这个系列的文章我们使用以下的顺序进行讲解：

Pattern 详解；
Matcher 详解；
正则表达式语法详解。

接下来先来介绍

Pattern

类。

在Java中，

java.util.regex

包定义了正则表达式使用到的相关类，其中最主要的两个类为：

Pattern

、

Matcher

：

Pattern 编译正则表达式后创建一个匹配模式；
Matcher 使用 Pattern 实例提供的正则表达式对目标字符串进行匹配，是真正影响搜索的对象。。

另加一个新的例外类，PatternSyntaxException，当遇到不合法的搜索模式时，会抛出例外。

Pattern 概述

声明：public final class

Pattern

implements java.io.Serializable

Pattern 类有

final

修饰，可知他不能被子类继承。

含义：模式类，正则表达式的编译表示形式。

注意：此类的实例是不可变的，可供多个并发线程安全使用。

Pattern 匹配模式（Pattern flags）

compile( )方法有一个版本，它需要一个控制正则表达式的匹配行为的参数：

Pattern Pattern.compile(String regex, int flag)

flag 的取值范围

字段	说明
Pattern. `UNIX_LINES`	unix行模式，大多数系统的行都是以 `\n` 结尾的，但是少数系统，比如Windows，却是以 `\r\n` 组合来结尾的，启用这个模式之后，将会只以 `\n` 作为行结束符，这会影响到^、$和点号(点号匹配换行符)。通过嵌入式标志表达式 ( `?d` ) 也可以启用 Unix 行模式。
Pattern. `CASE_INSENSITIVE`	默认情况下，大小写不敏感的匹配只适用于 `US-ASCII` 字符集。这个标志能让表达式忽略大小写进行匹配。要想对 `Unicode` 字符进行大小不明感的匹配，只要将 `UNICODE_CASE` 与这个标志合起来就行了。通过嵌入式标志表达式( `?i` )也可以启用不区分大小写的匹配。指定此标志可能对性能产生一些影响。
Pattern. `COMMENTS` ⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢	这种模式下，匹配时会忽略(正则表达式里的)空格字符（不是指表达式里的”//s”，而是指表达式里的空格，tab，回车之类）和注释（从#开始，一直到这行结束）。通过嵌入式标志表达式( `?x` ) 也可以启用注释模式。
Pattern. `MULTILINE`	默认情况下，输入的字符串被看作是一行，即便是这一行中包好了换行符也被看作一行。当匹配“^”到“$”之间的内容的时候，整个输入被看成一个一行。启用多行模式之后，包含换行符的输入将被自动转换成多行，然后进行匹配。通过嵌入式标志表达式 ( `?m` ) 也可以启用多行模式。
Pattern. `LITERAL`	启用字面值解析模式。指定此标志后，指定模式的输入字符串就会作为字面值字符序列来对待。输入序列中的元字符或转义序列不具有任何特殊意义。标志 `CASE_INSENSITIVE` 和 `UNICODE_CASE` 在与此标志一起使用时将对匹配产生影响。其他标志都变得多余了。不存在可以启用字面值解析的嵌入式标志字符。
Pattern. `DOTALL`	在这种模式中，表达式 `.` 可以匹配任何字符，包括行结束符。默认情况下，此表达式不匹配行结束符。通过嵌入式标志表达式 ( `?s` ) 也可以启用此种模式（s 是 “single-line” 模式的助记符，在 Perl 中也使用它）。
Pattern. `UNICODE_CASE`	在这个模式下，如果你还启用了 `CASE_INSENSITIVE` 标志，那么它会对Unicode字符进行大小写不敏感的匹配。默认情况下，大小写不明感的匹配只适用于US-ASCII字符集。指定此标志可能对性能产生影响。
Pattern. `CANON_EQ`	当且仅当两个字符的 `正规分解(canonical decomposition)` 都完全相同的情况下，才认定匹配。比如用了这个标志之后，表达式 `a/u030A` 会匹配 `?` 。默认情况下，不考虑 `规范相等性(canonical equivalence)` 。指定此标志可能对性能产生影响。

在这些标志里面，

Pattern.CASE_INSENSITIVE

，

Pattern.MULTILINE

，以及

Pattern.COMMENTS

是最有用的（其中

Pattern.COMMENTS

还能帮我们把思路理清楚，并且/或者做文档）。注意，你可以用在表达式里插记号的方式来启用绝大多数的模式。这些记号就在上面那张表的各个标志的下面。你希望模式从哪里开始启动，就在哪里插记号。

可以用

OR

(

)运算符把这些标志配合使用。

代码示例

多行模式：Pattern. `MULTILINE` 示例

我测试了一下，也就是说如果没有 MULTILINE 标志的话，

和

只能匹配输入序列的开始和结束；否则，就可以匹配输入序列内部的行结束符。测试代码如下：

import java.util.regex.*;

/**
 * 多行模式
 */
public class ReFlags_MULTILINE {

    public static void main(String[] args) {

        // 注意里面的换行符
        String str = "hello world\r\n" + "hello java\r\n" + "hello java";

        System.out.println("===========匹配字符串开头(非多行模式)===========");
        Pattern p = Pattern.compile("^hello");
        Matcher m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置：[" + m.start() + "," + m.end() + "]");
        }

        System.out.println("===========匹配字符串开头(多行模式)===========");
        p = Pattern.compile("^hello", Pattern.MULTILINE);
        m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置：[" + m.start() + "," + m.end() + "]");
        }

        System.out.println("===========匹配字符串结尾(非多行模式)===========");
        p = Pattern.compile("java$");
        m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置：[" + m.start() + "," + m.end() + "]");
        }

        System.out.println("===========匹配字符串结尾(多行模式)===========");
        p = Pattern.compile("java$", Pattern.MULTILINE);
        m = p.matcher(str);
        while (m.find()) {
            System.out.println(m.group() + "   位置：[" + m.start() + "," + m.end() + "]");
        }
    }
}

===========匹配字符串开头(非多行模式)===========
hello   位置：[,]
===========匹配字符串开头(多行模式)===========
hello   位置：[,]
hello   位置：[,]
hello   位置：[,]
===========匹配字符串结尾(非多行模式)===========
java   位置：[,]
===========匹配字符串结尾(多行模式)===========
java   位置：[,]
java   位置：[,]

忽略大小写：Pattern. `CASE_INSENSITIVE` 示例

有的时候，需要进行忽略大小写的匹配。该例子实现匹配摄氏温度和华氏温度，对于以C、c、F和f结尾的温度值都能匹配。

import java.util.regex.Pattern;

public class ReFlags_CASE_INSENSITIVE {

    public static void main(String[] args) {


        System.out.println("===========API忽略大小写===========");
        String moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
        Pattern p = Pattern.compile(moneyRegex,Pattern.CASE_INSENSITIVE);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());


        System.out.println("===========不忽略大小写===========");
        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
        p = Pattern.compile(moneyRegex);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());


        System.out.println("===========正则内部忽略大小写===========");
        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*(?i)[CF]";
        p = Pattern.compile(moneyRegex);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());


        System.out.println("===========内部不忽略大小写===========");
        moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
        p = Pattern.compile(moneyRegex);

        System.out.println("-3.33c   " + p.matcher("-3.33c").matches());
        System.out.println("-3.33C   " + p.matcher("-3.33C").matches());
    }
}

===========API忽略大小写===========
-c   true
-C   true
===========不忽略大小写===========
-c   false
-C   true
===========正则内部忽略大小写===========
-c   true
-C   true
===========内部不忽略大小写===========
-c   false
-C   true

启用注释：Pattern. `COMMENTS` 示例

启用注释，开启之后，正则表达式中的空格以及#号行将被忽略。

import java.util.regex.Pattern;

public class ReFlags_COMMENTS {

    public static void main(String[] args) {

        System.out.println("===========API启用注释===========");
        String comments = "    (\\d)+#this is comments.";
        Pattern p = Pattern.compile(comments, Pattern.COMMENTS);
        System.out.println("1234   " + p.matcher("1234").matches());

        System.out.println("===========不启用注释===========");
        comments = "    (\\d)+#this is comments.";
        p = Pattern.compile(comments);
        System.out.println("1234   " + p.matcher("1234").matches());

        System.out.println("===========正则启用注释===========");
        comments = "(?x)    (\\d)+#this is comments.";
        p = Pattern.compile(comments);
        System.out.println("1234   " + p.matcher("1234").matches());

        System.out.println("===========不启用注释===========");
        comments = "    (\\d)+#this is comments.";
        p = Pattern.compile(comments);
        System.out.println("1234   " + p.matcher("1234").matches());

    }
}

===========API启用注释===========
   true
===========不启用注释===========
   false
===========正则启用注释===========
   true
===========不启用注释===========
   false

可以看到，#号到行尾的注释部分和前面的空白字符都被忽略了。正则表达式内置的启用注释为（?x）。

启用 dotall 模式：Pattern. `DOTALL` 示例

启用dotall模式，一般情况下，点号（

）匹配任意字符，但不匹配换行符，启用这个模式之后，点号还能匹配换行符。

import java.util.regex.Pattern;

public class ReFlags_DOTALL {

    public static void main(String[] args) {

        System.out.println("===========API启用DOTALL===========");
        String dotall = "<xml>(.)*</xml>";
        Pattern p = Pattern.compile(dotall, Pattern.DOTALL);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

        System.out.println("===========不启用DOTALL===========");
        dotall = "<xml>(.)*</xml>";
        p = Pattern.compile(dotall);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

        System.out.println("===========正则启用DOTALL===========");
        dotall = "(?s)<xml>(.)*</xml>";
        p = Pattern.compile(dotall);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

        System.out.println("===========不启用DOTALL===========");
        dotall = "<xml>(.)*</xml>";
        p = Pattern.compile(dotall);
        System.out.println("<xml>\\r\\n</xml>   " + p.matcher("<xml>\r\n</xml>").matches());

    }
}

===========API启用DOTALL===========
<xml>\r\n</xml>   true
===========不启用DOTALL===========
<xml>\r\n</xml>   false
===========正则启用DOTALL===========
<xml>\r\n</xml>   true
===========不启用DOTALL===========
<xml>\r\n</xml>   false

平白字符模式模式：Pattern. `LITERAL` 示例

启用这个模式之后，所有元字符、转义字符都被看成普通的字符，不再具有其他意义。

import java.util.regex.Pattern;

public class ReFlags_LITERAL {

    public static void main(String[] args) {

        System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("\\d").matches());// true
        System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("2").matches());// false

        System.out.println(Pattern.compile("(\\d)+", Pattern.LITERAL).matcher("1234").matches());// false
        System.out.println(Pattern.compile("(\\d)+").matcher("1234").matches());// true

        System.out.println(Pattern.compile("(\\d){2,3}", Pattern.LITERAL).matcher("(\\d){2,3}").matches());// true
    }
}

Java正则（1）— Pattern 详解（一）

Pattern 概述

Pattern 匹配模式（Pattern flags）

flag 的取值范围

代码示例

多行模式：Pattern. `MULTILINE` 示例

忽略大小写：Pattern. `CASE_INSENSITIVE` 示例

启用注释：Pattern. `COMMENTS` 示例

启用 dotall 模式：Pattern. `DOTALL` 示例

平白字符模式模式：Pattern. `LITERAL` 示例

继续阅读

利用Python进行简单爬虫（爬取豆瓣《湮灭》短评）写在最前爬虫正则表达式匹配做法BeautifulSoup做法最后

pyquery爬取天蚕土豆经典玄幻三部曲斗破苍穹：武动乾坤：大主宰：

Python 爬虫实战: 爬取并下载CSDN文章

C# 正则表达式详解（学习心得 25）一、转义字符二、字符类三、定位点四、分组构造五、限定符六、反向引用构造七、备用构造八、替换九、杂项构造十、Regex 类

C#发送电子邮件 (异步)

Boost学习之XML解析

QT实现资源管理器总结

如何配置Eclipse进行Perl开发

一个不错的 js 校验

python 正则判断字符串是否为版本号

个人觉得C++BuilderX是个失败的作品

力扣每日一题：65. 有效数字题目：65. 有效数字解题思路

SQL注入风险小例

比较Flash AS3与AS2特性与功能

GSL--GNU Scientific Library

neo4j之cypher使用文档

Java正则（1）— Pattern 详解（一）

Pattern 概述

Pattern 匹配模式（Pattern flags）

flag 的取值范围

代码示例

多行模式：Pattern. MULTILINE 示例

忽略大小写：Pattern. CASE_INSENSITIVE 示例

启用注释：Pattern. COMMENTS 示例

启用 dotall 模式：Pattern. DOTALL 示例

平白字符模式 模式：Pattern. LITERAL 示例

继续阅读

多行模式：Pattern. `MULTILINE` 示例

忽略大小写：Pattern. `CASE_INSENSITIVE` 示例

启用注释：Pattern. `COMMENTS` 示例

启用 dotall 模式：Pattern. `DOTALL` 示例

平白字符模式模式：Pattern. `LITERAL` 示例