基础正则表达式字符及用法

一、什么是正则表达式

简单的说，正则表达式就是处理字符串的方法，是以行为单位来进行字符串的处理行为，通过一些特殊字符的辅助，用以查找、替换、删除某特定字符串的处理程序。

二、语系对正则表达式的影响

我们知道，我们看到的字符文字与数字都是通过编码表转化而来的。由于不同语系的编码表是不相同的，所以会造成数据选取结果的不同。

举个例子，在英文大小写的编码顺序中，zh_CN.big5及C这两种语系的输出结果分别入下：

LANG=C： 0 1 2 3 4……A B C……a b c……z

LANG=zh_CN: 0 1 2 3 4……a A b B……z Z

所以，在使用正则表达式时，需要注意当时环境的语系是什么，否则会影响选取结果。

下面介绍一些特殊符号的含义:

三、grep的一些高级参数

grep [-A] [-B] [–color=auto] ‘搜索字符串’ filename

参数：

-A：后面可加数字，除了列出该行外，后序的n行也列出来

-B：前面可加数字，除了列出该行外，前面的n行也列出来

–color=auto可将正确的那个选取数据列出颜色

eg：用dmesg列出内核信息，用grep找出内含eth的那行。

四、基础正则表达式字符（例子见下文）

1、待查找的字符串（word）在行首

RE字符：^word

范例：查找行首为#开始的那一行，并列出行号(grep 后带 -n 的作用)

命令：grep -n '^#' regular_express.txt

2、待查找的字符串（word）在行尾

RE字符：word$

范例：将行尾为!的那一行打印出来，并列出行号

命令：grep -n '!$' regular_express.txt

3、代表一定有一个任意字符的字符

RE字符：.

范例：查找的字符串可以是(eve)(eae)(eee)(e e)，但不能有(ee)！即e与e中间一定“有且仅有”一个字符，而空格也是字符

命令：grep -n 'e.e' regular_express.txt

4、转义字符，将特殊符号(比如^ $ . \ * [ ]等等)的特殊意义去除

RE字符：\

范例：查找含有单引号'的那一行

命令：grep -n '\'' regular_express.txt #注意\后面是两个单引号，而非一个双引号

5、重复零个到无穷多个的前一个字符

RE字符：*

范例：找出含有（es）（ess）（esss）等的字符串，注意，因为*可以是0个，所以 es 也是符合待查找字符串。另外，因为 * 为重复“前一个RE字符”的符号，因此，在*之前必须紧接着一个RE字符。例如任意字符则为".*"（注意星号前面是一个英文句号，因为英文句号代表“有且仅有一个任意字符”）。

命令：grep -n 'ess*' regular_express.txt #因为*可以是0个，所以 es 也是符合待查找字符串

6、从字符集合的RE字符里面找出想要选取的字符

RE字符：[list]

范例：查找含有（gl）或（gd）的那一行，需要特别留意的是，在[]当中代表一个待查找的字符，例如"a[afl]y"代表查找的字符串可以是aay、afy、aly，即[afl]代表的是a或f或l的意思。

命令：grep -n 'g[ld]' regular_express.txt

7、从字符集合的RE字符里面找出想要选取的字符范围

RE字符：[n1-n2]

范例：查找含有任意数字的那一行。需要特别注意的是，在字符集合[ ]中的减号-是有特殊意义的，它代表两个字符之间的所有连续字符。但这个连续与否与ASCII编码有关，因此，你的编码需要设置正确（在bash当中，需要确定LANG与LANGUAGE的变量是否正确）！例如所有大写字符则为[A-Z]。

命令：grep -n '[0-9]' regular_express.txt #查找含有任意数字的那一行

grep -n '[A-Z]' regular_express.txt #查找含有任意大写字母的那一行

8、从字符集合的RE字符里面找出不要的字符串或范围

RE字符：[^list]

范例：查找的字符串可以是（oog）（ood）但不能是（oot），那个^在[ ]内代表的意义是”反向选择“的意思。例如，我不要大写字母，则为[^A-Z]。但是，需要特别注意的是，如果以 grep -n [^A-Z] regular_express.txt 来查找，却发现该文件内的所有行都被列出，为什么？因为这个[^A-Z]是”非大写字符“的意思，因为每一行均有非大写字母。

命令：grep -n 'oo[^t]' regular_express.txt

9、连续n到m个的前一个RE字符，若为\{n\}则是连续n个的前一个RE字符，若为\{n,\}则是连续n个以上的前一个RE字符

RE字符：\{n,m\}

范例：在g与g之间有2个到3个的o存在的字符串，即（goog）（gooog）

命令：grep -n 'go\{2,3\}g' regular_express.txt

五、基础正则表达式练习

我们用例题感受理解一下正则表达式。

下面用的文件是在鸟哥的网站下下载的，如下命令:

例题1、查找特定字符串

比如含有’the’这个特定的字符串：

查找不含“the”字符串

不论大小写的“the”这个字符串

例题二：利用中括号[]查找集合字符

如果我想要查找test与taste两个单词有共同点是，都含有’t?st’ ，可以这样来查找。

查找含oo的字符：

但是，不想要前面有g的话，可以利用在集合字符的反向选择[^]来完成：

例题3：行首与行尾字符^$

当我们需要查询的字符只在行首列出，这个时候可以使用制表符了：

证明只有12行是the开头的。

查找第一个字符以a~z开头的：

查找第一个字符是大写的：

查找第一个字符是小

写的：

^在字符集合符号[]之内和之外是不同的，在[]之内表示反向选择，在[]之外表示定位在行首。

那么行尾呢？

行尾结束为小数点.的那一行

小数点具有其他的意义，所以我们使用转义字符\来解除特殊意义。

查找空白行：

例题4：任意一个字符.与重复字符

注意正则表达式并不是通配符，我们需要了解正则表达式中的几个符号：

.(小数点）：一定有一个任意字符

*(星号)：重复前一个0到无穷多次，为组合形态

我们通过例子了解：

查找g??d的字符串，即开头是g结束是d：

o*代表具有空字符串或一个o以上的字符，则会将所有的结果打印出来

oo*代表第一个o必须存在，第二个o可有可无

ooo*查找含有至少两个以上oo的字符串

如下：

查找字符串开头结尾都是g的：

查找以g开头和结尾的字符串所在的行，但中间的字符可有可无

例题5：限定连续RE字符范围{}

因为{}在shell中有特殊意义，我们必须用转义字符来让它失去特殊意义

如果查找两个o的字符串

基础正则表达式字符及用法

继续阅读

centOS7 配置 vsftpd 虚拟用户及权限Vsftpd配置虚拟用户及权限

linux-svn卸载与安装

vsftp虚拟多用户多权限一键部署脚本

Ubuntu14.04 LTS下安装mongodb

Nginx服务优化（1）——隐藏版本号、修改用户与组、网页缓存时间、日志切割、连接超时一、隐藏版本号二、修改用户与组三、配置Nginx网页缓存时间四、实现Nginx日志分割五、配置Nginx实现连接超时六、补充关于时间日期的命令

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

配置网页内容访问

手动安装Intel network I217-LM网卡的Linux驱动

禁止ubuntu系统弹出报错界面

Ubuntu Linux下Apache的配置文件

neo4j之cypher使用文档

samba服务器的功能

【Linux】UDP广播报文接收速率问题

Linux设备模型（中）之上层容器

JBoss,Geronimo和Glassfish初窥

PowerPC平台 Linux移植三