python爬取人脸识别图片数据集/python爬去图片/python爬虫
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768前言最近在
千家信息网最后更新 2025年12月03日python爬取人脸识别图片数据集/python爬去图片/python爬虫
本人长期出售超大量微博数据、旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com。同时欢迎加入社交媒体数据交流群:99918768
前言
最近在做机器学习下的人脸识别的学习,机器学习这个东西有点暴力,很大程度上靠训练的数据量来决定效果。为了找数据,通过一个博客的指导,浏览了几个很知名的数据集。
几个大型数据集是通过发邮件申请进行下载,几个小型数据集直接在网页的链接下载,还有一个Pubfig数据集则是提供了大量图片的链接来让我们自己写程序来下载。
权衡了数据量的需求,最后选择Pubfig的数据集,于是就自己写了一个python图片采集程序,里面用了urllib和requests两种方法.
分析Pubfig提供的下载文件的特点
这个数据文件提供了在数据集中出现的所有人物
这个数据文件提供了每个人的urls
可以看出来这个数据集的处理其实非常简单了,可以通过readlines的方式存进列表用空格分开一下数据就可以把urls提取出来了。
处理一下urls文件
urls在文件的中后部,写个文件把它单纯地提取出来,方便使用。
我单独把Miley_Cyrus的部分提取出来放了一个txt文件
pic_url = []with open('./Miley_Cyrus.txt') as f: for i in f.readlines(): pic_url.append(i.strip('\r\n'))urls = []for s in pic_url: _, _, _, url, _, _ = s.split() urls.append(url)# 写入到文件里面with open('url.data', 'w') as f: for i in urls: f.write(i) f.write('\n')爬取urls图片
1. Urllibs方法
import urllib.request as requestimport socketimport os# 在同级目录新建文件夹存图片os.mkdir('./img')# 为请求增加一下头user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'headers = ('User-Agent', user_agent)opener = request.build_opener()opener.addheaders = [headers]request.install_opener(opener)# 设定一下无响应时间,防止有的坏图片长时间没办法下载下来timeout = 20socket.setdefaulttimeout(timeout)# 从文件里面读urlsurls = []with open('./url.data') as f: for i in f.readlines(): if i != '': urls.append(i) else: pass# 通过urllibs的requests获取所有的图片count = 1bad_url = []for url in urls: url.rstrip('\n') print(url) try: pic = request.urlretrieve(url, './img3/%d.jpg' % count) print('pic %d' % count) count += 1 except Exception as e: print(Exception, ':', e) bad_url.append(url) print('\n')print('got all photos that can be got')# 把没有抓取到的urls保存起来with open('bad_url3.data', 'w') as f: for i in bad_url: f.write(i) f.write('\n') print('saved bad urls')2. Requests方法
import requestsimport socketimport os# 在同级目录新建文件夹存图片os.mkdir('./img')# 设定一下无响应时间,防止有的坏图片长时间没办法下载下来timeout = 20socket.setdefaulttimeout(timeout)# 从文件里面读urlsurls = []with open('./url.data') as f: for i in f.readlines(): if i != '': urls.append(i) else: pass# 为请求增加一下头,获取图片user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'headers = { 'User-Agent': user_agent}bad_url = []count = 1for url in urls: url.rstrip('\n') print(url) try: pic = requests.get(url, headers=headers) with open('./img2/%d.jpg' % count, 'wb') as f: f.write(pic.content) f.flush() print('pic %d' % count) count += 1 except Exception as e: print(Exception, ':', e) bad_url.append(url) print('\n')print('got all photos that can be got')# 保存坏链接with open('bad_url.data', 'w') as f: for i in bad_url: f.write(i) f.write('\n') print('saved bad urls')个人博客
8aoy1.cn
数据
文件
图片
方法
链接
学习
办法
博客
同级
文件夹
时间
机器
目录
程序
加一
长时
处理
人脸
很大
知名
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库如何学习
服务器内存条和普条都能用选哪种
莱芜诚信积分管理软件开发公司
服务器挂载是啥意思
免费软件开发怎么做
甘肃金融微服务架构数据库
天海传媒网络技术有限公司
如何扫描服务器安全
服务器刷新的图标是黑色的
谋乐网络安全红蓝对抗比赛
软件开发中创新的重要性
无法ping通数据库服务器
网络安全常见攻击篇
网络技术公司大全
王者重新登录找不到服务器怎么办
服务器主机提示空间不足
怎样才能删除手机使用数据库
北京网络安全大会聚焦内生安全
初中网络安全宣传成果
天津市网络安全责任制文件
软件开发合同管理思路与方法
税盘数据库异常
走向世界的新华互联网科技
.net软件开发招聘西安
access 数据库对象
服务器上有的硬盘绿灯常亮
IP数据库技术入股
kod云用什么软件开发的
全国网络安全和信息化受益股
通用数据库模型