正则表达式学习笔记3.4

2017-11-12 23:50:00

第一段为合法html代码，第二段为不合法html代码。

[^<]+匹配非<的任意多个字符

开头用来匹配开始tag

结尾用来匹配结束tag

中间用来匹配文本。

发现这个正则表达式，既能匹配合法，又能匹配不合法的。

因为匹配开始tag和结束tag的两个子表达式，并没有什么联系，也就是说匹配的结束tag并不等于开始的tag

下面用反向引用在两个子表示之间建立联系：

String regex = "<(\\w+)>[^<]+</(\\1)>";

运行结果：

<h1>good,good</h1>能够匹配正则:<(\w+)>[^<]+</(\1)>

<h1>bad</h2>不能够匹配正则:<(\w+)>[^<]+</(\1)>

对匹配开始tag的子表达式添加捕获分组：

在匹配结束tag的子表达式中，使用\1这个反向引用的功能：

补充：

一些题外话；使用正则表达式替换的时候，也可以使用反向引用的功能。

例子：

public class GeneralEvelent {

public static void main(String[] args) {

String dupWords = "word word";

String dupWordRegex = "(\\w+)\\s+(\\1)";

System.out.println("替换之前:"+dupWords);

System.out.println("替换之后:"

+dupWords.replaceAll(dupWordRegex, "$1"));

}

替换之前:word word

替换之后:word

简单的去掉重复单词的例子

dupWords.replaceAll(dupWordRegex, "$1")

$1按照java语言规定，这个特殊变量对应的是正则表达式中编号为1的分组所捕获的字符串。

也就是说将两个重复单词的字符串，替换为单个重复单词的字符串，这样就去掉了一个重复单词。

小结

·量词：规定之前元素出现的次数

·*，+，？

·区间量词：{min,max}

·量词的局限：括号(...)的使用

·括号的用途：多选分支

·括号的用途：捕获分组

·括号的用途：反向引用

正则表达式学习笔记3 完！

本文转自jooben 51CTO博客，原文链接:http://blog.51cto.com/jooben/317570

正则表达式学习笔记3.4

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

正则表达式 学习笔记3.4

继续阅读

正则表达式学习笔记3.4