Python爬虫的必备技巧有哪些
发表于:2025-11-17 作者:千家信息网编辑
千家信息网最后更新 2025年11月17日,这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Pytho
千家信息网最后更新 2025年11月17日Python爬虫的必备技巧有哪些
这篇文章主要介绍"Python爬虫的必备技巧有哪些",在日常操作中,相信很多人在Python爬虫的必备技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"Python爬虫的必备技巧有哪些"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
自定义函数
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') for i in title: print(i.text)# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)批量输出多个搜索结果的标题

结果保存为文本文件
import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(company): url = 'https://www.baidu.com/s?rtt=4&tn=news&word=' + company print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.news-title_1YtI1 a') fl=open('test.text','a', encoding='utf-8') for i in title: fl.write(i.text + '\n')# 批量调用函数companies = ['腾讯', '阿里巴巴', '百度集团']for i in companies: baidu(i)
写入代码
fl=open('test.text','a', encoding='utf-8')for i in title: fl.write(i.text + '\n')异常处理
for i in companies: try: baidu(i) print('运行成功') except: print('运行失败')写在循环中 不会让程序停止运行 而会输出运行失败
休眠时间
import timefor i in companies: try: baidu(i) print('运行成功') except: print('运行失败')time.sleep(5)time.sleep(5)
括号里的单位是秒
放在什么位置 则在什么位置休眠(暂停)
爬取多页内容
百度搜索腾讯
切换到第二页
去掉多多余的
https://www.baidu.com/s?wd=腾讯&pn=10
分析出
https://www.baidu.com/s?wd=腾讯&pn=0 为第一页
https://www.baidu.com/s?wd=腾讯&pn=10 为第二页
https://www.baidu.com/s?wd=腾讯&pn=20 为第三页
https://www.baidu.com/s?wd=腾讯&pn=30 为第四页
..........
代码
from bs4 import BeautifulSoupimport timeheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:93.0) Gecko/20100101 Firefox/93.0'}def baidu(c): url = 'https://www.baidu.com/s?wd=腾讯&pn=' + str(c)+'0' print(url) html = requests.get(url, headers=headers).text s = BeautifulSoup(html, 'html.parser') title=s.select('.t a') for i in title: print(i.text)for i in range(10): baidu(i) time.sleep(2)到此,关于"Python爬虫的必备技巧有哪些"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
腾讯
运行
技巧
爬虫
学习
函数
巴巴
成功
代码
位置
更多
结果
集团
阿里
阿里巴巴
休眠
帮助
搜索
输出
实用
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全直接用户画像是什么
云服务器删除对方电话
数据库大字段拆分
对网络安全的认识和心得
学校网络安全使用措施
我的世界手机版服务器能用电脑吗
怎么打开电脑的服务器管理
博睿同创互联网科技有限公司
网络安全认证的步骤
树立网络安全教育讨论
软件开发找工作怎么样
山东服务器机柜要多少钱
俄罗斯 网络安全 政府
软件开发失败
数据库网络波动
一言服务器异常什么时候好
开展网络安全大检查活动
数据库课和设计 有代码
无忧考吧服务器
数据库应用技术国开1256
在哪可以培训pkpm软件开发
网络安全能力建设心得体会
c语言如何在文件找数据库
做软件开发需要什么电脑权限
怎么查看服务器的加密算法
软件开发用到的设备
柯南服务器架设方法
网络安全维护的主主要内容
黑山大叔的服务器
服务器内存容量是根据什么决定的