Python怎么爬取csnd文章并转为PDF文件
发表于:2025-11-20 作者:千家信息网编辑
千家信息网最后更新 2025年11月20日,今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.导入模块import r
千家信息网最后更新 2025年11月20日Python怎么爬取csnd文章并转为PDF文件
今天就跟大家聊聊有关Python怎么爬取csnd文章并转为PDF文件,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
1.导入模块
import requests # 数据请求 发送请求 第三方模块 pip install requestsimport parsel # 数据解析模块 第三方模块 pip install parselimport os # 文件操作模块import re # 正则表达式模块import pdfkit # pip install pdfkit
2.创建文件夹
filename = 'pdf\\' # 文件名字filename_1 = 'html\\'if not os.path.exists(filename): #如果没有这个文件夹的话 os.mkdir(filename) # 自动创建一下这个文件夹if not os.path.exists(filename_1): #如果没有这个文件夹的话 os.mkdir(filename_1) # 自动创建一下这个文件夹
3.发送请求
for page in range(1, 11): print(f'=================正在爬取第{page}页数据内容=================') url = f'https://blog.csdn.net/qdPython/article/list/{page}' # python代码对于服务器发送请求 >>> 服务器接收之后(如果没有伪装)被识别出来, 是爬虫程序, >>> 不会给你返回数据 # 客户端(浏览器) 对于 服务器发送请求 >>> 服务器接收到请求之后 >>> 浏览器返回一个response响应数据 # headers 请求头 就是把python代码伪装成浏览器进行请求 # headers参数字段 是可以在开发者工具里面进行查询 复制 # 并不是所有的参数字段都是需要的 # user-agent: 浏览器的基本信息 (相当于披着羊皮的狼, 这样可以混进羊群里面) # cookie: 用户信息 检测是否登录账号 (某些网站 是需要登录之后才能看到数据, B站一些数据内容) # referer: 防盗链 请求你的网址 是从哪里跳转过来的 (B站视频内容 / 妹子图图片下载 / 唯品会商品数据) # 根据不同的网站内容 具体情况 具体分析 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36' } # 请求方式: get请求 post请求 通过开发者工具可以查看url请求方式是什么样的 # 搜索 / 登录 /查询 这样是post请求 response = requests.get(url=url, headers=headers)4.数据解析
# 需要把获取到的html字符串数据转成 selector 解析对象selector = parsel.Selector(response.text)# getall 返回的是列表href = selector.css('.article-list a::attr(href)').getall()5.如果把列表里面每一个元素 都提取出来
for index in href: # 发送请求 对于文章详情页url地址发送请求 response_1 = requests.get(url=index, headers=headers) selector_1 = parsel.Selector(response_1.text) title = selector_1.css('#articleContentId::text').get() new_title = change_title(title) content_views = selector_1.css('#content_views').get() html_content = html_str.format(article=content_views) html_path = filename_1 + new_title + '.html' pdf_path = filename + new_title + '.pdf' with open(html_path, mode='w', encoding='utf-8') as f: f.write(html_content) print('正在保存: ', title)6.替换特殊字符
def change_title(name): mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]') new_name = re.sub(mode, '_', name) return new_name
运行代码,即可下载HTML文件:
7.转换成PDF文件
config = pdfkit.configuration(wkhtmltopdf=r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')pdfkit.from_file(html_path, pdf_path, configuration=config)
看完上述内容,你们对Python怎么爬取csnd文章并转为PDF文件有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
文件
数据
内容
模块
文件夹
服务器
浏览器
服务
浏览
文章
代码
登录
信息
参数
字段
字符
工具
开发者
方式
正在
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
高校网络安全教育图片
服务器内存插槽一般几个
海南智汇网络技术有限公司
法制网络安全小报道
网络安全实时监管
服务器女工程师工作
网络安全周历届活动
如何架构文件服务器
胡说考研数据库
内蒙古软件开发解决方案推荐
网络安全考研
网易服务器修好了没
湖南邮箱提取外贸软件开发
游戏服务器开源
软件开发设计书
数据库安装认证失败怎么办
求生之路2本地服务器自己进不去
周村纺织管理软件开发公司
2021大话西游最火的服务器
重庆手机软件开发流程
数据库设计属于软件设计
信息网络安全教育学习心得
车联网机房网络安全
标准服务器机柜有多少u
登录密码获取数据库
软件开发技术优势怎么写
PHP实现的Web服务器
个人塔式服务器增加硬盘
网络安全的启示
metadata数据库视图