Python Scrapy爬虫框架如何使用
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,本篇内容介绍了"Python Scrapy爬虫框架如何使用"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所
千家信息网最后更新 2025年12月03日Python Scrapy爬虫框架如何使用
本篇内容介绍了"Python Scrapy爬虫框架如何使用"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1、项目创建
创建一个Scrapy项目非常简单,一般快速创建可以通过终端直接输入如下代码:
scrapy startproject zhuanti_new
如果要在不同的文件中创建此项目,就需要先找到对应的文件路径,当然你也可以通过pycharm,直接在对应的文件中,点击左下角终端进行创建,项目就直接在对应的项目文件中创建了一个Scrapy项目

2、Scrapy项目文件介绍
通过下面截图可以看到一个Scrapy项目有哪些文件,同时还需要创建和生成哪些文件,接下来逐一介绍。

(1)最顶层的zhuanti_new文件夹是Scrapy的项目名称
(2)第2层有4个文件:
第1个:和项目名称相同的文件,就是我们通常叫的爬虫包,所有的爬虫代码都在这个包里面
第2个:mian文件,是用来运行这个项目的主函数代码文件,代码写完后通过这个文件总体运行
第3个:配置文件,说明一下默认设置文件的位置为zhuanti_new模块下的settings文件,同时定义项目名称为:zhuanti_new
第4个:为存储爬取结果的txt文件
针对第一个文件里面的代码重点文件下面逐一介绍一下:
(1)items.py文件:定义爬虫抓取的字段信息
(2)pipelines.py文件:主要用于数据处理、清洗和存储
(3)settings.py:主要用于设置请求头、报警处理等相关问题
(4)zhuantispider.py文件:重点爬取数据过程的代码文件,也是新建立的文件
代码如下:
from zhuanti_new.items import ZhuantiNewItemimport scrapyfrom scrapy.selector import Selectorclass JianshuSpiderSpider(scrapy.Spider):name = 'zhuantispider'allowed_domains = ['jianshu.com']start_urls = ['https://www.jianshu.com/recommendations/collections?page=1&order_by=hot']#print(start_urls)def parse(self, response):'''解析外面页面'''selector = Selector(response)partical_urls = selector.re('文件 项目 代码 爬虫 运行 名称 数据 结果 框架 接下来 信息 内容 可以通过 同时 就是 文章 更多 案例 知识 终端 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 原神小米云服务器 软件开发如何营销推广 新时期计算机软件开发技术论文 数据库拥有者 ERP服务器 安全网闸 uci如何找数据库 京东的数据库设计 网络安全三高 服务器新增jar包 sql数据库表里字段查重 软件开发企业发展规划 保护数据库的五个安全措施 网络安全营收排名 网络安全等级规定标准 91备份还原找不到数据库 dell 服务器 16核 网络安全权责 公安系统服务器多久升级一次 服务器机柜接地 数据库功能设计图 网络安全和信息化岗位怎么样 gpu服务器运算能力 网络安全法规条文 紫盘能不能安装在服务器上 温江区网络安全社区 高级数据库技术杜金莲 91备份还原找不到数据库 服务器如何加油站 穿越火线服务器管理员 linux服务器 管理