如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,这篇文章主要为大家展示了"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"
千家信息网最后更新 2025年12月03日如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地
这篇文章主要为大家展示了"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地"这篇文章吧。
每次当你爬取一篇文章时,不管是从csdn或者其他网站,基本内容都是保存在一个富文本编辑器中,将内容提取出来还是一个html,保存之后图片还在别人的图片服务器上。我今天要说的就是将图片保存之后并将它的src属性替换成本地的地址。并且以次替换,按照原文章排版顺序替换。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018/11/5 15:06
# @Author : jia.zhao
# @Desc :
# @File : img_test.py
# @Software: PyCharm
import urllib.request
import re
def getHtml(url):
# 通过urllib去请求
page = urllib.request.urlopen(url)
# 读取页面内容
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
# Python3需要加的
html = html.decode('utf-8')
# 找到所有匹配项
imglist = re.findall(imgre, html)
x = 0
# 循环
for i in range(len(imglist)):
# 保存图片
# urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x)
# 根据每个图片的src的内容进行替换
html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html)
x += 1
print(html)
html = getHtml("http://tieba.baidu.com/p/2460150866")
print(getImg(html))这个demo知识贴吧的一个帖子里的图片,大家可以依据自己的需求去更改此代码。
以上是"如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
图片
内容
属性
网站
并将
篇文章
文章
知识
学习
帮助
代码
原文
地址
就是
帖子
文本
易懂
更多
服务器
条理
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
华为网络技术基础问题
美国国防部数据库
打车软件开发文档
海南英图互联网科技有限公司
小学的网络安全课程
无法访问dns域名服务器
中国科学引文数据库被誉为什么
监控中心服务器网络关闭
上海术驰网络技术有限公司视频
数据库同时增加多列
mysql清空数据库所有表
服务器产品盈利模式
清除数据库连接
螺栓数据库
服务器需要装git吗
福建综合软件开发哪家好
显示数据库索引审查失败
吉林数据网络技术分类推广
在天津做软件开发待遇怎么样
服务器地址是什么
打车软件开发文档
属于全文型的数据库有
盘锦赛区2021网络安全
学计算机网络技术难不难
物种分类数据库名称
西宁市网络安全保卫
2016福建网络安全
网络安全道德班会的主持稿
浙江hpe刀片服务器哪家好
项目经理和软件开发员的关系