怎么用Python爬虫获取网址美图
发表于:2025-11-18 作者:千家信息网编辑
千家信息网最后更新 2025年11月18日,本篇内容介绍了"怎么用Python爬虫获取网址美图"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Py
千家信息网最后更新 2025年11月18日怎么用Python爬虫获取网址美图
本篇内容介绍了"怎么用Python爬虫获取网址美图"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
Python学习教程之爬虫:爬取街拍美图
1. 抓包
2. 查看参数信息
多看几页即可看见规律,主要改变的项无非是offset,timestamp,这里的stamp是13位的时间戳,再根据keyword改变搜索项,可以改变offset值实现翻页操作,其他的都是固定项
3. 数据解析
返回的数据中可以得到具体的栏目,image_list中是所有的图片链接,我们解析这个栏目,然后根据title下载图片即可
4. 流程分析
构建url发起请求,改变offset的值执行便利操作,对返回的json数据进行解析,根据title名称建立文件夹,如果栏目含有图片,则以title_num的格式下载图片
import requestsimport osimport timeheaders = { 'authority': 'www.toutiao.com', 'method': 'GET', 'path': '/api/search/content/?aid=24&app_name=web_search&offset=100&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab&pd=synthesis×tamp=1556892118295', 'scheme': 'https', 'accept': 'application/json, text/javascript', 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'zh-CN,zh;q=0.9', 'content-type': 'application/x-www-form-urlencoded', 'referer': 'https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D', 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36', 'x-requested-with': 'XMLHttpRequest',}def get_html(url): return requests.get(url, headers=headers).json()def get_values_in_dict(list): result = [] for data in list: result.append(data['url']) return resultdef parse_data(url): text = get_html(url) for data in text['data']: if 'image_list' in data.keys(): title = data['title'].replace('|', '') img_list = get_values_in_dict(data['image_list']) else: continue if not os.path.exists('街拍/' + title): os.makedirs('街拍/' + title) for index, pic in enumerate(img_list): with open('街拍/{}/{}.jpg'.format(title, index + 1), 'wb') as f: f.write(requests.get(pic).content) print("Download {} Successful".format(title))def get_num(num): if isinstance(num, int) and num % 20 == 0: return num else: return 0def main(num): for i in range(0, get_num(num) + 1, 20): url = 'https://www.toutiao.com/api/search/content/?aid={}&app_name={}&offset={}&format={}&keyword={}&' \ 'autoload={}&count={}&en_qc={}&cur_tab={}&from={}&pd={}×tamp={}'.format(24, 'web_search', i, 'json', '街拍', 'true', 20, 1, 1, 'search_tab', 'synthesis', str(time.time())[:14].replace('.', '')) parse_data(url)if __name__ == '__main__': main(40)"怎么用Python爬虫获取网址美图"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
图片
爬虫
美图
数据
栏目
网址
内容
更多
知识
学习
实用
学有所成
接下来
信息
参数
名称
困境
学习教程
实际
情况
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
什么是网络安全教育法
服务器管理集成平台
北京免费网络安全能用吗
雷瑟守备的服务器
浪潮服务器拆机
定位软件开发需要哪些条件
游戏软件开发教学
国产数据库产业百花齐放
广州豹锋网络技术有限公司
软件开发需求文档多会给
潮科技互联网公司
网络安全专题
南京工程软件开发公司
网络安全威海
新建数据库怎么装
数据库查询每个班成绩前三的同学
数据库优化主要指标
南通推广网络技术来电咨询
六安扬轩网络技术
软件开发对象种类
上传服务器安全设置
wps去掉文本数据库
长宁区品质数据库清单
世界有多少服务器
电脑服务器更改了怎么找回之前的
人工智能网络安全软件开发
关于网络安全的背景音乐
北京直播软件开发服务
榆林ar软件开发价格
服务器检索信息时出错