千家信息网

基于pycharm的beautifulsoup4库怎么用

发表于:2025-11-12 作者:千家信息网编辑
千家信息网最后更新 2025年11月12日,这篇文章主要为大家展示了"基于pycharm的beautifulsoup4库怎么用",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"基于pycharm的bea
千家信息网最后更新 2025年11月12日基于pycharm的beautifulsoup4库怎么用

这篇文章主要为大家展示了"基于pycharm的beautifulsoup4库怎么用",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"基于pycharm的beautifulsoup4库怎么用"这篇文章吧。

1.beautifulsoup4库安装

第一步:在控制台输入如下命令,安装beautifulsoup4库。

pip install beautifulsoup4

第二步:在控制台输入如下命令,验证是否成功安装beautifulsoup4库。

第三步:pycharm中,点击file——settings——project——python interpreter——点击+号——搜索beautifulsoup4——install package!

这样就可以在.py文件中导入模块了!

2.beautifulsoup4库使用

import requests# 虽然库名叫做beautiful4 但是在导入时 使用的是其缩写bs4 其中BeautifulSoup是一个类名from bs4 import BeautifulSoupurl = 'https://www.baidu.com/s?'# 由于一般网站都是供用户访问 如果检测到User-Agent是黑客或者其他可能拒绝访问 故此处模拟浏览器headers = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'}response = requests.get(url=url, headers=headers)# 以防乱码 此处将其编码设置为utf-8 因为有中文response.encoding = 'utf-8'# print(response.text)# 使用的解析器是html.parser 注意是.奥soup = BeautifulSoup(response.text, 'html.parser')# 打印解析后的结果print(soup.prettify())

需要讲解的都在代码注释中了奥!

3.beautifulsoup4库基本元素

beautifulsoup4库是解析、遍历、维护"标签树"的功能库。

首先来看BeautifulSoup库解析器,前两个比较常用!

再来看BeautifulSoup库的基本元素,可以这样理解,标签树和HTML以及BeautifulSoup是一样的,我们要看HTML的某些内容就使用BeautifulSoup的实例化对象查看即可。

在上述代码的基础上,增加如下几行,结合基本元素的使用,可得到如图所示。

需要注意的是,.string可以跨标签,所以很有可能结果也为注释,为了区分是标签内的字符串还是注释,可以通过打印类型来判断。

总结起来,可如下:

接下来,看一下BeautifulSoup库的遍历,其中画红框的迭代遍历,可以用于for in循环中。

4.beautifulsoup4库的HTML查找方法

find_all( name , attrs , recursive , string , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

name 参数可以对名字为 name 的标签进行检索。

attrs参数可以对标签属性值为attrs的标签进行检索。

recursive参数表示是否对子孙全部检索,默认是TRUE,如果只想搜索当前节点的儿子信息,可以置其为FALSE。

string 参数可以标签中的字符串内容进行检索。

5.补充Json(Javascript Object Notation)

我们学过js的或者java的,应该对Json不陌生吧!

Json是一种有类型的键值对!

需要注意的是,键和值都需要用""括起来,如果值是整数,则可以不用""!

如果值是多值,则可以用[,];如果值是键值对,则可以用{:,:,},可以嵌套使用。

JSON一般用于接口,而YAML是无类型键值对,一般用于配置文件。

以上是"基于pycharm的beautifulsoup4库怎么用"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

标签 内容 参数 检索 元素 注释 篇文章 类型 搜索 代码 命令 字符 字符串 控制台 文件 方法 结果 节点 学习 帮助 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 中税云科网络技术有限公司 2018年网络安全回顾 android的集成数据库 4月29日首都网络安全答题 数据库工程师考试题型 氩紫网络技术有限公司 长沙畅捷通软件开发有限公司 宁波嵌入式软件开发是做什么的 网络安全工作培训班培训内容 iOS微信数据库设计 奇讯互联网络科技有限公司 交通银行软件开发中心外包比例 2021年网络安全知识题 江苏采购系统管理软件开发 江苏配置数据网关服务器 网络安全管理员负责内容 山东亿嘉信网络技术有限公司 二手服务器内存什么品牌好 安徽省超级服务器云主机 天津科委数据库 db2数据库恢复到另一台机 当前的网络技术正在 h3c无线网络技术是干什么的 黄浦区本地软件开发技术指导 深圳牛津英语软件开发 北京工业软件开发收费 数据库查询类 高级职称聘任服务器管理办法 东营仓库管理erp软件开发 网络安全的现状及发展
0