||
正则表达式:
在python中如果使用正则表达式,可以使用re模块,格式如下:
import re
Pyhton中正则表达式相关的符号:
\n \t \w等等;
原子:
原子是正则表达式里面最基本的单位,每个正则表达式都会至少包含一个原子,常见的原子有下面几种类型:
普通字符作为原子;
非打印字符作为原子;
通用字符作为原子;
原子表;
要使用正则表达式筛选相关的信息,是需要通过正则表达式函数实现的
search(),可以实现对应信息的匹配与查找,search函数的使用格式如下:
import re
re.search(正则表达式,源字符串)
1. 普通字符作为原子,如“yum”
2. 非打印字符作为原子,常见的非打印字符有如下两种,如\n换行符,\t制表符;
3. 通用字符作为原子,通用字符是指可以匹配一系列某种特定形式元素的字符,如:
\w字母、数字、下划线;\d十进制数字,等等
4. 原子表,原子表是指一系列原子所组成的集合,在该集合中,所有的原子都处于平等地位,在匹配时,会从原子表中只选择出一个原子进行匹配;如果在原子表里面的最前方加上^符号,则代表匹配除了这些原子以外的其他元素;
元字符:
元字符指的是一些具有特殊含义的符号,通过这些符号可以匹配出满足对应含义的元素;
常见的元字符有:^、$、?、{n}、{n,m}等
贪婪模式与修正模式:
一般情况下,匹配都是按照贪婪模式进行的,贪婪模式就是尽可能多的匹配;
如果我们希望获取较为准确的数据,就需要尽量少的匹配,如果需要尽量少的匹配,此时可以使用贪婪模式进行,如果要使用贪婪模式,通常会采用“?”符号进行;
模式修正符:
模式修正符起模式修正作用,如:
I #匹配时忽略大小写;
M #多行匹配;
正则表达式函数:
正则表达式只是一种规则,是静态的,我们在匹配数据的时候,需要使用正则表达式函数来实现对应的匹配功能;
如search()、match()、全局匹配函数re.compile(正则表达式).findall(待匹配数据)等;
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-27 07:54
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社