python原生字符串与普通字符串_正则表达式中对于原生字符串的理解

2023-08-06 18:11:46

在正则表达式中，有些字符是有特殊意义的字符。因此如果想要匹配这些字符，那么就必须使用反斜杠进行转义。比如$代表的是以...结尾，如果想要匹配$，那么就必须使用\$。示例代码如下：

text = "apple price is \$99,orange paice is $88"

ret = re.search('\$(\d+)',text)

print(ret.group())

>> $99

原生字符串：

在正则表达式中，\是专门用来做转义的。在Python中\也是用来做转义的。因此如果想要在普通的字符串中匹配出\，那么要给出四个\。示例代码如下：

text = "apple \c"

ret = re.search('\\\\c',text)

print(ret.group())

因此要使用原生字符串(r标记)就可以解决这个问题：

text = "apple \c"

ret = re.search(r'\\c',text)

print(ret.group())

那么原理是什么呢？为什么在不适用r来标记原生字符串的时候需要四个\呢？使用r的时候需要两个\呢？

我们需要先来了解一下正则表达式的一个匹配过程，例如 ret = re.search('\\\\c',text) 这句代码：我们都知道 \ 字符无论是在python中还是正则表达式中都表示转义字符，这句代码首先python将其解释成 \\c(第一个和第三个\分别表示转义，那么第二个和第四个表示普通字符\，最终即成为了\\c)，接下来正则表达式拿到\\c后第一个\表示转义，因此将最后解释为普通的 \c 两个字符，再去匹配的文本里比较。而使用r来标记原生字符串后，python默认解释其为\\c三个字符，最后交由正则表达式再经过转义后即普通的\c两个字符。

原生字符串这里比较绕，希望对大家有所帮助，也欢迎大家讨论给出指导~！

原文链接:https://blog.csdn.net/qq_39504519/article/details/107075923

python原生字符串与普通字符串_正则表达式中对于原生字符串的理解

继续阅读

python原生字符串与普通字符串_Python将变量视为文字/原始字符串