BraveZhao的个人博客分享 http://blog.sciencenet.cn/u/BraveZhao

博文

Learn python the hard way---chaper 9 正则表达式

已有 1221 次阅读 2018-10-15 22:03 |个人分类:Python|系统分类:科研笔记

 正则表达式:

python中如果使用正则表达式,可以使用re模块,格式如下:

import re

Pyhton中正则表达式相关的符号:

\n  \t  \w等等;

原子:

原子是正则表达式里面最基本的单位,每个正则表达式都会至少包含一个原子,常见的原子有下面几种类型:

普通字符作为原子;

非打印字符作为原子;

通用字符作为原子;

原子表;

要使用正则表达式筛选相关的信息,是需要通过正则表达式函数实现的

search(),可以实现对应信息的匹配与查找,search函数的使用格式如下:

import re

re.search(正则表达式,源字符串)

1.      普通字符作为原子,如“yum

2.      非打印字符作为原子,常见的非打印字符有如下两种,如\n换行符,\t制表符;

3.      通用字符作为原子,通用字符是指可以匹配一系列某种特定形式元素的字符,如:

\w字母、数字、下划线;\d十进制数字,等等

4.      原子表,原子表是指一系列原子所组成的集合,在该集合中,所有的原子都处于平等地位,在匹配时,会从原子表中只选择出一个原子进行匹配;如果在原子表里面的最前方加上^符号,则代表匹配除了这些原子以外的其他元素;

元字符:

元字符指的是一些具有特殊含义的符号,通过这些符号可以匹配出满足对应含义的元素;

常见的元字符有:^$、?、{n}{n,m}

贪婪模式与修正模式:

一般情况下,匹配都是按照贪婪模式进行的,贪婪模式就是尽可能多的匹配;

如果我们希望获取较为准确的数据,就需要尽量少的匹配,如果需要尽量少的匹配,此时可以使用贪婪模式进行,如果要使用贪婪模式,通常会采用“?”符号进行;

模式修正符:

模式修正符起模式修正作用,如:

I   #匹配时忽略大小写;

M  #多行匹配;

正则表达式函数:

正则表达式只是一种规则,是静态的,我们在匹配数据的时候,需要使用正则表达式函数来实现对应的匹配功能;

search()match()、全局匹配函数re.compile(正则表达式).findall(待匹配数据)等;




https://wap.sciencenet.cn/blog-3388193-1140997.html

上一篇:Learn python the hard way---chaper 7 类与对象
下一篇:在VMware下的Ubuntu中访问集群

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-5-18 08:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部