爬虫中正则表达式怎么用
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章给大家分享的是有关爬虫中正则表达式怎么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、正则表达式:学会正则表达式的常用符号2、re模块:学会python中re模
千家信息网最后更新 2025年12月02日爬虫中正则表达式怎么用
这篇文章给大家分享的是有关爬虫中正则表达式怎么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
1、正则表达式:学会正则表达式的常用符号
2、re模块:学会python中re模块的使用方法
3、Requests和re模块的组合应用:案例说明
正则表达式:
一般字符:

预定义字符:

数量词:
边界匹配:
(.?)括号内容返回结果,.?匹配任意字符
import re
a = 'xxIxxmexxlovexxsffaxxpythonxx'
infos = re.findall('xx(.*?)xx',a)
print(infos)
输出结果:I,love, python
re模块及其方法
search()函数:匹配并提取第一个符合规律的内容,返回一个正则表达式对象
re.match(pattern,string,flags=0)
其中:
(1)pattern为匹配的正则表达式
(2)string为要匹配的字符串
(3)flags为标志位,用于控制正则表达式的匹配方式,如是否区分大小写,多行匹配等
import re
a='one1two2three3'
infos=re.search('\d+',a)
print(infos)
输出:
import re
a='one1two2three3'
infos=re.search('\d+',a)
print(infos.group())
输出:1
sub()函数:用于替换字符串中的匹配项
re.sub(pattern,repl,string,count=0,flags=0)
其中:
(1)pattern为匹配的正则表达式
(2)repl为替换的字符串
(3)string为要被查找替换的原始字符串
(4)counts为模式匹配后替换的最大次数,默认0表示替换所有的匹配
(5)flags为标志位,用于控制正则表达式的匹配方式,如是否区分大小写,多行匹配等
import re
phone='123-456-789'
new_phone=re.sub('\D','',phone)
print(new_phone)
输出:123456789
findall()函数:匹配所有符合规律的内容,并以列表的形式返回结果。
import re
a='one1two2three3'
infos2=re.findall('\d+',a)
print(infos2)
输出:['1', '2', '3']
import re
a ='''指数
'''
word = re.findall('(.*?)', a, re.S)
print(word[0].strip())
输出:指数
感谢各位的阅读!关于"爬虫中正则表达式怎么用"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
正则
表达式
字符
输出
内容
字符串
模块
函数
结果
爬虫
大小
指数
方式
方法
更多
标志
篇文章
规律
多行
控制
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
兰州有没有英雄联盟服务器
新华互联网科技学校呼和浩特
计算机网络技术基础数据链路层
重庆泸渝网络技术有限
数据库非主属性列是什么
餐饮软件开发外包
h5软件开发是做什么
服务器外接显卡
一个阿里云账号可以有几个服务器
抄牌族数据库
三实软件开发有限责任公司
浙江涉农信用信息数据库
省两会网络安全
荆州有软件开发岗位吗
查无服务器
对网络技术的建议
代号探戈第五关证物数据库
jdbc链接不到数据库
涉密网络安全保密产品购置
软件开发需求讨论
杭州的互联网科技有限公司
服务器端口号用英文代替
数据库dbwr
网络安全考试科目代码
八中网络安全主题
网络安全工程师招
慈溪一站式软件开发项目
服务器后面亮蓝灯
应用服务器中间件的使用
app数据库空间租赁