1、什么是正则表达式
简单的说,正则表达式就是为处理大量的字符串而定义的一套规则和方法
例如:
假设“@”代表oldboy,“!”代表oldgirl。echo "@!"==“oldboyoldgirl”
通过定义的这些特殊符号的辅助,系统管理员就可以快速过滤,替换或输出需要的字符串
linux正则表达式一般以行为单位处理的。
正则表达式:
1)linux正则表达式(grep awk sed)
2)PHP、JAVA、PERLPYTHON(Perl兼容正则 PCRE)
2、为什么要学正则表达式?
在企业工作中,我们每天做的linux运维工作中,时刻都会面对大量带有字符串的文本配置、程序、命令输出及日志文件等,而我们经常会有迫切的需要,从大量的字符串内容中查找符合工作需要的特定的字符串。这就要靠正则表达式。因此,可以说正则表达式就是为过滤字符的需求而生的!
例如:ifconfig的输出取IP,例如:cat /var/log/messages输出等
3、容易混淆的两个注意事项:
1)正则表达式应用非常广泛,存在于各种语言中,例如:php、python、java
等。但是我们今天讲的linux系统运维工作中的正则表达式,即linux正则表达式,最常用正则表达式的命令就是grep(egrep)、sed、awk,换句话说linux三剑客要想工作的各高效,那一定离不开正则表达式配合的。
2)正则表达式和我们常用的通配符特殊字符是用本质去别的,这一点要注意
通配符例子:
ls *.log这里的*就是通配符(表示所有),不是正则表达式
基本组成部分:
正则表达式的基本组成部分。
正则表达式
描述
示例
\
转义符,将特殊字符进行转义,忽略其特殊意义
a\.b匹配a.b,但不能匹配ajb,.被转义为特殊意义
^
匹配行首,awk中,^则是匹配字符串的开始
^tux匹配以tux开头的行
$
匹配行尾,awk中,$则是匹配字符串的结尾
tux$匹配以tux结尾的行
.
匹配除换行符\n之外的任意单个字符,awk则中可以
ab.匹配abc或bad,不可匹配abcd或abde,只能匹配单字符
[ ]
匹配包含在[字符]之中的任意一个字符
coo[kl]可以匹配cook或cool
[^ ]
匹配[^字符]之外的任意一个字符
123[^45]不可以匹配1234或1235,1236、1237都可以
[ - ]
匹配[]中指定范围内的任意一个字符,要写成递增
[0-9]可以匹配1、2或3等其中任意一个数字
?
匹配之前的项1次或者0次
colou?r可以匹配color或者colour,不能匹配colouur
+
匹配之前的项1次或者多次
sa-6+匹配sa-6、sa-666,不能匹配sa-
*
匹配之前的项0次或者多次
co*l匹配cl、col、cool、coool等
()
匹配表达式,创建一个用于匹配的子串
ma(tri)?匹配max或maxtrix
{ n }
匹配之前的项n次,n是可以为0的正整数
[0-9]{3}匹配任意一个三位数,可以扩展为[0-9][0-9][0-9]
{n,}
之前的项至少需要匹配n次
[0-9]{2,}匹配任意一个两位数或更多位数
{n,m}
指定之前的项至少匹配n次,最多匹配m次,n<=m
[0-9]{2,5}匹配从两位数到五位数之间的任意一个数字
|
交替匹配|两边的任意一项
ab(c|d)匹配abc或abd
POSIX字符类
POSIX字符类是一个形如[:...:]的特殊元序列(metasequence),他可以用于匹配特定的字符范围。
[:alnum:]
匹配任意一个字母或数字字符
[[:alnum:]]+
[:alpha:]
匹配任意一个字母字符(包括大小写字母)
[[:alpha:]]{4}
[:blank:]
空格与制表符(横向和纵向)
[[:blank:]]*
[:digit:]
匹配任意一个数字字符
[[:digit:]]?
[:lower:]
匹配小写字母
[[:lower:]]{5,}
[:upper:]
匹配大写字母
([[:upper:]]+)?
[:punct:]
匹配标点符号
[[:punct:]]
[:space:]
匹配一个包括换行符、回车等在内的所有空白符
[[:space:]]+
[:graph:]
匹配任何一个可以看得见的且可以打印的字符
[[:graph:]]
[:xdigit:]
任何一个十六进制数(即:0-9,a-f,A-F)
[[:xdigit:]]+
[:cntrl:]
任何一个控制字符(ASCII字符集中的前32个字符)
[[:cntrl:]]
[:print:]
任何一个可以打印的字符
[[:print:]]
元字符
元字符(meta character)是一种Perl风格的正则表达式,只有一部分文本处理工具支持它,并不是所有的文本处理工具都支持。
\b
单词边界
\bcool\b 匹配cool,不匹配coolant
\B
非单词边界
cool\B 匹配coolant,不匹配cool
\d
单个数字字符
b\db 匹配b2b,不匹配bcb
\D
单个非数字字符
b\Db 匹配bcb,不匹配b2b
\w
单个单词字符(字母、数字与_)
\w 匹配1或a,不匹配&
\W
单个非单词字符
\W 匹配&,不匹配1或a
\n
换行符
\n 匹配一个新行
\s
单个空白字符
x\sx 匹配x x,不匹配xx
\S
单个非空白字符
x\S\x 匹配xkx,不匹配xx
\r
回车
\r 匹配回车
\t
横向制表符
\t 匹配一个横向制表符
\v
垂直制表符
\v 匹配一个垂直制表符
本文转自 炫维 51CTO博客,原文链接:http://blog.51cto.com/xuanwei/1844305