千家信息网

千家信息网

请输入关键字词

热门搜索排行

最新搜索排行

导航：首页 > 服务器 >

python爬虫取图片详解，

发表于：2025-12-02 作者：千家信息网编辑

千家信息网最后更新 2025年12月02日，接下来会依次准备三个案例（如果要把每一个点都精通的话大约要花费一个月，我说的精通是指自己将代码不用查资料写出来，以下暂未整理）：import requests,threading#多线程处理与控制fr

千家信息网最后更新 2025年12月02日python爬虫取图片详解，

接下来会依次准备三个案例（如果要把每一个点都精通的话大约要花费一个月，我说的精通是指自己将代码不用查资料写出来，以下暂未整理）：
import requests,threading#多线程处理与控制
from lxml import etree
from bs4 import BeautifulSoup
#获取源码
def get_html(url):
url='http://www.doutula.com/?qqdrsign=01495'
#获取网络地址，但这个地方写死了，怎么办呢，因为我们还没有做多页
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}
#上一步是模拟浏览器信息，固定格式，可记下来
request=requests.get(url=url,headers=headers)#对网址发送一个get请求
response=request.content#获取源码，比test稍微好一点
#print(response)
return response
#接下来是获取外页，即图片自身的源码
def get_img_html(html):
soup=BeautifulSoup(html,'lxml')#解析网页方式，自带html.pparser
all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加
for i in all_a:
print(i)#i是指
img_html=get_html(i['href'])#是用来获取超链接这一部分源码
print(img_html)
#http://www.doutula.com/article/list/?page=2
a=get_html(1)
get_img_html(a)
好了，我们已经可以获取一部分的源码了，这样，我们接下来的工作是开始做多页

import requests,threading#多线程处理与控制
from lxml import etree
from bs4 import BeautifulSoup
#获取源码
def get_html(url):
#url='http://www.doutula.com/?qqdrsign=01495'#获取网络地址，但这个地方写死了，怎么办呢，因为我们还没有做多页
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}
#上一步是模拟浏览器信息，固定格式，可记下来
request=requests.get(url=url,headers=headers)#对网址发送一个get请求
response=request.content#获取源码，比test稍微好一点
#print(response)
return response
#接下来是获取外页，即图片自身的源码
def get_img_html(html):
soup=BeautifulSoup(html,'lxml')#解析网页方式，自带html.pparser
all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加
for i in all_a:
print(i)#i是指
img_html=get_html(i['href'])#是用来获取超链接这一部分源码
print(img_html)
#http://www.doutula.com/article/list/?page=2
def main():
start_url='http://www.doutula.com/article/list/?page='
for i in range(1,10):
start_html=get_html(start_url.format(i))#将前十页的页数传递进来，来获取前十页源码
get_img_html(start_html)#来获取图片所在的链接源码

main()
最后是总的源码：
import requests,threading#多线程处理与控制
from lxml import etree#解析方式，直接找到里面的内容
from bs4 import BeautifulSoup
#获取源码
def get_html(url):
#url='http://www.doutula.com/?qqdrsign=01495'#获取网络地址，但这个地方写死了，怎么办呢，因为我们还没有做多页
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}
#上一步是模拟浏览器信息，固定格式，可记下来
request=requests.get(url=url,headers=headers)#对网址发送一个get请求
response=request.content#获取源码，比test稍微好一点
#print(response)
return response
#接下来是获取外页，即图片自身的源码
def get_img_html(html):
soup=BeautifulSoup(html,'lxml')#解析网页方式，自带html.pparser
all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加
for i in all_a:
#print(i)#i是指
img_html=get_html(i['href'])#是用来获取超链接这一部分源码
get_img(img_html)
#print(img_html)
#http://www.doutula.com/article/list/?page=2
#获取图片的url:
def get_img(html):soup=etree.HTML(html)#解析之前的初始化，自动修正代码的
items=soup.xpath('//div[@class="artile_des"]')#@是用来选取属性，找到相应盒子
br/>soup=etree.HTML(html)#解析之前的初始化，自动修正代码的
items=soup.xpath('//div[@class="artile_des"]')#@是用来选取属性，找到相应盒子

br/>imgurl_list=item.xpath('table/tbody/tr/td/a/img/@onerror')#onerror这个是所需要的属性，很重要

#print(imgurl_list)
#start_save_img(imgurl_list)
#上处已找到图片
#接下来是下载by多线程
x=1#设置命名
#拼接完整链接，文件open
def save_img(img_url):
global x #设置全局变量
x+=1
img_url=img_url.split('=')[-1][1:-2].replace('jp','jpg')
print("正在下载"+'http:'+img_url)
img_content=requests.get(img_url).content
with open('doutu/%s.jpg'% x,'wb') as f:
f.write(img_content)
print('已打印第%s张图片'%x);

#打造多线程
def start_save_img(imgurl_list):
for i in imgurl_list:
print(i)
th=threading.Thread(target=save_img,args=(i,))
th.start()
def main():
start_url='http://www.doutula.com/article/list/?page='
for i in range(1,10):
start_html=get_html(start_url.format(i))#将前十页的页数传递进来，来获取前十页源码
get_img_html(start_html)#来获取图片所在的链接源码

if name=='main':
main()
未完待续，后期会有改进

源码图片接下来链接线程方式代码信息关键关键字地址地方属性怎么办格式浏览器网址网络网页上一数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全关于计算机网络技术的专业品牌研究数据库南昌手机软件开发培训班暗影格斗3为什么无法连接服务器网易我的世界服务器飞行脚本下载数据库服务器程序服务器安全防护哪个品牌好普通人如何学习网络安全 mysql数据库前端缓存 h3c服务器技术支持电话阿里云服务器激活网络安全小学绘画图片国家查滴滴网络安全网络安全要如何自护 fdb数据库上海库存网络技术销售公司监控数据库的增删改查软件开发中的前台后台数钥网络技术有限公司以太网偶尔服务器请求超时软件开发的就业前景和行业背景东城区网络安全招标软件开发和信息技术服务的区别如何监控软件开发项目进度表游戏软件开发同步携程软件服务器更改密钥点击无反应中国的互联网科技企业是买办吗佛山公共场所wifi网络安全电脑与网络技术的利与弊例子数据库字段设计说明怎么写

相关文章