一、正则基本知识

　　正则在python中是以c实现的，在后续的爬虫等工作都需要使用到该模块，主要搜索文本的内容。搜索非常速度。

　　http://tool.oschina.net/regex

　　https://www.regexpal.com/ 两个个在线的正则表达式，可以用来借鉴

1.1 正则常用的匹配规则

　　下面是列举出来一些常用的，更多的使用help(re)查看。

　　　　正则默认都是贪婪匹配的（尽可能的多，贪吃）。还有一种懒惰匹配（取到最少那次就不干活了）。

　　　　？是一个非常有意思的规则。自己单独的时候，表示0或1个字符。

　　　　　　　和贪婪的组合在一起的时候，就变成了控制贪婪变成懒惰匹配了。

. 　　　　　　　 代表任意字符，但是除了换行符
# 开头和结尾
    ^         代表字符串的开始            
    $         代表字符串的结尾 ,如果是多行文本，默认只匹配第一行的结尾。
# 任意字符,贪婪匹配
    *         匹配0或多次，贪婪匹配，取到满足的最多  
    +         匹配1或多次，贪婪匹配，取到满足的最多   
    ?         匹配0或一次，贪婪匹配，取到满足的最多   
                  ？还可结合*，+，？做懒惰匹配
# ?组合-懒惰匹配
    *?   +?   ??  前面的任意字符，得到最少的那次

# 指定次数 匹配
    {m}      匹配m次。
    {m,n}    匹配m到n次，和切片的使用方法一致。也是贪婪匹配
                    {m,}   m到无穷
                    {n,}    0 到n次
                    a{m}   匹配6个a
    {m,n}?   更改成懒惰，得到最少的那次匹配
# 分组
    ()       下面会详细的讲解
# 字符集
　　[] 只取其中一个 
　　　　　　　　[0-9]　　　　 代表 1到9,
　　　　　　　　[a-z]　　　　 代表 a到z      
　　　　　　　　[a-zA-z0-9]  所有的字符和数字
　　　　　　　　[abc]　　　　 匹配任意一个
　　　　　　　　[^9]　　　　　除了9以外其他的所有
# 或
　　|　　　　　　常常搭配字符集和分组使用，[a|b]:找到a了，就不找b了，反之相同。

1.2 转义字符 \

　　　python的正则规则是以引号包围的，里面的的一些字符要代表本身的含义，或转成其他意思，就需要这个\。

　　　红色的为常用的。

\.      　 默认.是代表任意字符，我们可以让他转义为。本身
\A     　　只在字符串开头进行匹配。
\b     　　匹配位于开头或者结尾的空字符串
\B     　　匹配不位于开头或者结尾的空字符串
\d     　　匹配任意十进制数，相当于 [0-9]
\D     　　匹配任意非数字字符，相当于 [^0-9]
\s     　　匹配任意空白字符，相当于 [ \t\n\r\f\v]
\S     　　匹配任意非空白字符，相当于 [^ \t\n\r\f\v]
\w     　　匹配任意数字和字母，相当于 [a-zA-Z0-9_]
\W     　　匹配任意非数字和字母的字符，相当于 [^a-zA-Z0-9_]
\Z     　　只在字符串结尾进行匹配
\number　　在分组中使用，类似占位符

二、两种使用方法

2.1 方法1：compile

　　利用compile方法，生成一个re对象，好处是可以多次使用

import re
res = re.compile('\d{3}')            # 第一步，把正则字符串进行编码，返回一个re对象，保存为一个常量
result = res.search('I am hui 123')  # 第二步，把compile返回的对象，去匹配字符串，返回一个mactch对象
result.group()                       # 第三步，使用match对象的group方法，返回实际匹配的对象

正则支持链式编程

2.2 方法2：re.方法

　　直接使用re的方法，对于单一的使用比较方便，如果每次使用，每次都要定义。

import re
x = re.search('\d{3}', 'I am hui 123') # 直接使用match对象
x.group()                              # 使用match对象的group方法，返回实际匹配的对象

正则支持链式编程

三、函数

3.1 compile

　　 compile(pattern, flags=0)

　　　　Compile a regular expression pattern into a regular expression object re.compile(pattern, flags=0)

　　　　把正则表达式的模式和标识转化成正则表达式对象，供 match() 和 search() 这两个函数使用。

　　常用的flags：　

re.I  　　忽略大小写
re.L  　　表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M  　　多行模式
re.S 　　 把‘.’切换成 包含换行符，默认 点 是不包含换行符号的。
re.X  　　为了增加可读性，忽略空格和’ # ’后面的注释

　　一个正则的注释的列子：

import re

regex = re.compile(r'(\d{1,3}\.){3}\d{1,3}')  # 错误写法
regex = re.compile(r'''
(2[0-4]\d|25[0-5]|[01]?\d\d?\.)  # 代表一组ip，包含后面的点
{3}                              # 表示3组
(2[0-4]\d|25[0-5]|[01]?\d\d?)    # 最后一组数字
''', re.X)
print(regex.match('192.168.1.1'))
print(regex.match('999.999.999.999'))  # 非正常的ip

3.2 seach　

　　搜索整个字符串，返回第一个匹配的对象-match对象

　　search(pattern, string, flags=0)

　　　　Scan through string looking for a match to the pattern, returning

　　　　a match object, or None if no match was found.

import re
s = """
1334-1234-113
133-1234-2123
135-4567-3456
[email protected]
[email protected]
[email protected]
https://github.com
https://taobcom.com
"""
target = '\d{4}'
target = '\d{3}(-\d{4}){2}'
regex = re.compile(target)
result = re.search(regex, s)
if result:
    print(result.group())
else:
    print('找不到')

3.2 match

　　匹配字符串的开头，符合则返回一个match对象。

　　注意match 和 seach的不同。两者都是只匹配一次，找到符合就返回，后面的就不再匹配。如果不符合就返回None

　　　　　　macth：只匹配字符串的开头，注意前面的空白字符，特别是/n 换行。

　　　　　　seach：搜索整个字符串。

import re
reg = re.compile('\d{3}')
s1 = '1234dasd'            # 正常内容
s2 = '/n1234dasd'         # 前面有换行符
s3 = ' 123'                    # 前面有空格
print(reg.match(s1))
print(reg.match(s2))
print(reg.match(s3))      

结果：
<_sre.SRE_Match object; span=(0, 3), match='123'>
None
None

3.3 findall

　　匹配所有的字符串，到结束为之。返回一个列表。

import re
s = 'ferfewf234ed3de8ge4r3434rde8ger3r3rde8gede8ger34rf34r'

rege = re.compile('de8ge')
# rege = re.compile('de(8)ge')  # 进行分组
result = rege.findall(s)
print(result)

3.4 spilit

　　使用正则的规则，来进行分割。类似字符串的spilt

import re

s = 'ferfewf234ed3de8ge4r3434rde8ger3r3rde8gede8ger34rf34r'
rege = re.compile('de8ge')    # 抛弃了de8ge
rege = re.compile('(de8ge)')  # 以de8ge进行分割，但是会返回de8ge
result = rege.split(s)
print(result)

3.5 sub

　　字符串中也有字符串的替换，replace,。正则中使用sub来替换字符串的内容，比起字符串的内容，整体更灵活。

第一种使用分组进行替换

import re
s = '字符串格式： 10/01/2008,  12/25/2018'
re_date = re.compile(r'(\d+)/(\d+)/(\d+)') # r是raw的意思，原生字符串
x=re_date.sub(r'\3-\1-\2', s)
print(x)

第二种进行字符替换

import re
s = """
pytyhon is hard to learn,   坚持下，
没多少了        ok？
"""
# print(s)
regex = re.compile('\s+')
print(regex.sub('', s))

四、扩展知识

4.1 贪婪匹配与懒惰匹配

　　　　？是一个非常有意思的规则。

　　　　　　　　1. 自己单独的时候，表示0或1个字符。

　　　　　　　　2. 和贪婪的组合在一起的时候，就变成了控制贪婪变成懒惰匹配了。

*?             重复任意次，但尽可能少重复
+?             重复1次或更多次，但尽可能少重复
??             重复0次或1次，但尽可能少重复
{n,m}?         重复n到m次，但尽可能少重复
{n,}?          重复n次以上，但尽可能少重复

# 小案列，想匹配引号内部的，说话的内容
import re
text = 'Ipone say "yes." PC say "No."'
regex = re.compile('"(.*)"')    # 使用贪婪匹配，会得到最长的那串
#regex = re.compile('"(.*?)"') # 加上?,变成懒惰匹配就正常了   
print(regex.findall(text))

4.2 分组

　　分组是用（）来表示的，分组在我个人感觉有三种作用：

　　　　1. 将某些规律看成是一组，然后进行组级别的重复。

　　　　2. 分组之后，可以通过后向引用简化表达式。

　　　　3. 和find组合，查找指定的字符

第一个作用

　　用ip地址（这个是简单版本，ip的真实看上面）作为实例：

\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}
但仔细观察，我们可以发现一定的规律，可以把.\d{1,3}看成一个整体，也就是把他们看成一组，再把这个组重复3次即可。表达式如下：
    \d{1,3}(\.\d{1,3}){3}
这样一看，就比较简洁了。

第二个作用：

　　首先强调一个知识点，后向引用，赋值的是匹配后的结果，非正则表达式。

<title>.*</title>

       可以看出，上边表达式中有两个title，完全一样，其实可以通过分组简写。表达式如下：

       <(title)>.*</\1>

       这个例子实际上就是反向引用的实际应用。对于分组而言，整个表达式永远算作第0组，在本例中，第0组是<(title)>.*</\1>，然后从左到右，依次为分组编号，因此，(title)是第1组。

       用\1这种语法，可以引用某组的文本内容，\1当然就是引用第1组的文本内容了，这样一来，就可以简化正则表达式，只写一次title，把它放在组里，然后在后边引用即可。

       以此为启发，我们可不可以简化刚刚的IP地址正则表达式呢？原来的表达式为\d{1,3}(.\d{1,3}){3}，里边的\d{1,3}重复了两次，如果利用后向引用简化，表达式如下：

       (\d{1,3})(.\1){3}

       简单的解释下，把\d{1,3}放在一组里，表示为(\d{1,3})，它是第1组，(.\1)是第2组，在第2组里通过\1语法，后向引用了第1组的文本内容。

       经过实际测试，会发现这样写是错误的，为什么呢？

       小菜一直在强调，后向引用，引用的仅仅是文本内容，而不是正则表达式！

       也就是说，组中的内容一旦匹配成功，后向引用，引用的就是匹配成功后的内容，引用的是结果，而不是表达式。

       因此，(\d{1,3})(.\1){3}这个表达式实际上匹配的是四个数都相同的IP地址，比如：123.123.123.123。

第三作用：

　　和find组合，提取组的内容。先匹配整个正则表达式，根据结果再次提取（）里面的内容

import re
data = '''
○ 4.1日，共有4人面试，手机号分别是13812345678，15112345678，13812345678，15112345678
○ 4.5日，共有6人面试13812345678，15112345678，13812345678，15112345678，13812345678，15112345678
○ 4.7日，共有3人面试13812345678，15112345678，13812345678
○ 4.8日，共有5人面试15112345678，13812345678，15112345678，13812345678，15112345678
4.30日，共有6人面试13812345678，15112345678，13812345678，15112345678，13812345678，15112345678
'''

regex = re.compile('共有(\d+)人')  # 先匹配整个正则表达式，根据结果再次提取（）里面的内容
sum_people = sum([int(i) for i in regex.findall(data)])
print(sum_people)

分组命名：

　　对于后向引用采用编号的方式进行替换，容易混淆，采用命名的方式便于识别

import re
# regex = re.compile(r'(\d+)\.(\d+)')                 # 使用编号替换，但是容易混淆，下面的方式采用命名
# print(regex.sub(r'\1月\2日', memo_text))

regex = re.compile(r'(?P<month>\d+)\.(?P<day>\d+)')
print(regex.sub(r'\g<month>月\g<day>日', memo_text))

五、常用一些正则

import re

RE_PHONE = re.compile('\d{3}-\d{8}|\d{4}-\d{7}')


def phone(str1: str)-> list:
    "输入一个字符串，从中返回一个列表"
    return RE_PHONE.findall(str1)


def main():
    s = """
    010-23293293deuju010-23223293
    0111-3234123
    """
    print(phone(s))

if __name__ == '__main__':
    main()

匹配电话号码

匹配腾讯QQ号：　　[1-9][0-9]{4,}　　腾讯QQ号从10000开始 
只能输入汉字：　　^[\u4e00-\u9fa5]{1,8}$ 
只能输入由数字和26个英文字母组成的字符串：　　“^[A-Za-z0-9]+$” 
验证用户密码:　　“^[a-zA-Z]\w{7,17}$”正确格式为：以字母开头， 长度在8-18之间， 只能包含字符、数字和下划线。

import re

# 验证电话
RE_PHONE = re.compile('\d{3}-\d{8}|\d{4}-\d{7}')
# 验证汉字
RE_CH = re.compile('^[\u4e00-\u9fa5]{1,8}$')
# 验证密码
RE_PWD = re.compile('^[a-zA-Z]\w{7,17}$')


def phone(text: str)-> list:
    "输入一个字符串，从中返回一个列表"
    return RE_PHONE.findall(text)


def verify(regex: '正则表达式', text: str)-> list:
    "验证用户名和密码"
    if regex.match(text):
        return True
    else:
        return False


def main():
    s = """
    010-23293293deuju010-23223293
    0111-3234123
    """
    # print(phone(s))
    print(verify(RE_CH, '辉'))
    print(verify(RE_PWD, 'dewu231_*'))
    

if __name__ == '__main__':
    main()

用函数来实现

转载于:https://www.cnblogs.com/louhui/p/8971497.html

正则表达式一、正则基本知识二、两种使用方法三、函数四、扩展知识五、常用一些正则

一、正则基本知识

1.1 正则常用的匹配规则

1.2 转义字符 \

二、两种使用方法

2.1 方法1：compile

2.2 方法2：re.方法

三、函数

3.1 compile

3.2 seach

3.2 match

3.3 findall

3.4 spilit

3.5 sub

四、扩展知识

4.1 贪婪匹配与懒惰匹配

4.2 分组

五、常用一些正则

继续阅读

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

测试理论面试题

【Torch】最简洁logging使用指南

软件测试面试题整理

27. Remove Element(列表)题目代码

sort()函数到底是怎样进行数字排序的

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

软件测试工程师跳槽：收到面试电话后，我会做的事。

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

正则表达式一、正则基本知识二 、两种使用方法三、函数四、扩展知识五、 常用一些正则

一、正则基本知识

1.1 正则常用的匹配规则

1.2 转义字符 \

二 、两种使用方法

2.1 方法1：compile

2.2 方法2：re.方法

三、函数

3.1 compile

3.2 seach

3.2 match

3.3 findall

3.4 spilit

3.5 sub

四、扩展知识

4.1 贪婪匹配 与 懒惰匹配

4.2 分组

五、 常用一些正则

继续阅读

正则表达式一、正则基本知识二、两种使用方法三、函数四、扩展知识五、常用一些正则

二、两种使用方法

3.2 seach　

4.1 贪婪匹配与懒惰匹配

五、常用一些正则