天天看点

正则表达式中的元字符

在软件构造实验三中,我们为排班表应用添加了一个从文本中读取排班信息的功能

文本中给出的信息在格式上可能是错误的,如果我们直接拿来使用的话,当我们在后续的对文本信息进行解析的过程中,可能会出现很多不必要的麻烦

通过使用正则表达式,在对文本内容解析之前,先筛除掉格式错误的文本文件,可以很大程度上减少我们后续过程中的工作量

我总结了一下常用的正则表达式的元字符,并简单介绍了一下它们的含义

正则表达式中的元字符

元字符 正则表达式中的写法 含义
. "." 代表任意一个字符
\d "\\d" 代表0~9的任意一个数字
\D "\\D" 代表任意一个非数字字符
\s "\\s" 代表空白字符。如‘\t’、‘\n’
\\S "\\S" 代表非空白字符
\w "\\w" 代表可用作标识符的字符(不包括‘$’)
\W "\\W" 代表不可用于标识符的字符
\p{Lower} \\p{Lower} 代表小写字母{a~z}
\p{Upper} \\p{Upper} 代表大写字母{A~Z}
\p{ASCII} \\p{ASCII} ASCII字符
\p{Alpha} \\p{Alpha} 字母字符
\p{Digit} \\p{Digit} 十进制数字
\p{Alnum} \\p{Alnum} 数字或字母字符
\p{Punct} \\p{Punct} 标点符号
\p{Graph} \\p{Graph} 可见字符
\p{Print} \\p{Print} 可打印字符
\p{Blank} \\p{Blank} 空格或制表符
\p{Cntrl} \\p{Cntrl} 控制字符

资料来源:《Java从入门到精通》,清华大学出版社,2019年10月第1版