如何实现Python抓取数据到可视化全流程的实现
发表于:2025-11-08 作者:千家信息网编辑
千家信息网最后更新 2025年11月08日,本篇文章为大家展示了如何实现Python抓取数据到可视化全流程的实现,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1、爬取目标网站:业绩预告_数据中心_同花顺
千家信息网最后更新 2025年11月08日如何实现Python抓取数据到可视化全流程的实现
本篇文章为大家展示了如何实现Python抓取数据到可视化全流程的实现,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
1、爬取目标网站:业绩预告_数据中心_同花顺财经
(ps:headers不会设置的可以看这篇:Python 用requests.get获取网页内容为空 ’ ’)
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport requests##把各种可能用到的包提前导好headers={ 'Accept': 'text/html,*/*; q=0.01', 'hexin-v': 'A2C11EVPFXAhNKl0PUpM6xp8MWU2aUUO5k-YOdpwLngMrQpTgnkUwzZdaMMp', 'Referer': 'http://data.10jqka.com.cn/financial/yjyg/', 'Cookie':'对应填写', 'User-Agent':'对应填写'}url="http://data.10jqka.com.cn/ajax/yjyg/date/2021-12-31/board/ALL/field/enddate/order/desc/page/{}/ajax/1/free/1/"result = '' for i in range(1,5): result += requests.get(url.format(i), headers=headers).textresult爬取成功,检查数据:
2、获取序号、股票代码、等你所需要的信息
index = re.findall('(.*) ',result)index148条数据符合预期,继续查看股票代码(这里使用正则表达式查询,可以看这篇里边对正则表达式进行了讲解:正则表达式+常用示例)
stock_code = re.findall('class="stockCode">(.*)',result)print(stock_code)
3、组成DataFrame
data = pd.DataFrame({ "stock_code":stock_code, "stock_name":stock_name, "performance":performance, "summary":summary}, index=index) data组合成功
4、处理数据
使用正则筛选出净利润和增长幅度
data['start_profit'] = data['summary'].str.extract('(-{0,1}\d{0,10}\.{0,1}\d{0,10})万元')data['end_profit'] = data['summary'].str.extract('至(-{0,1}\d{0,10}\.{0,1}\d{0,10})万元')data["start_range"] = data['summary'].str.extract('(\d{0,5}\.{0,1}\d{0,5})%') + "%"data["end_range"] = data['summary'].str.extract('至(\d{0,5}\.{0,1}\d{0,5})%') + "%"data.head()判断盈利情况:
def if_profit(x): if x in ['业绩预降', '业绩大幅上升', '业绩大幅下降', '业绩预盈', '业绩预增', '预计扭亏']: return 1 if x in ['预计减亏', '不确定','业绩预亏', '预计增亏', '预计续亏']: return -1 return 0data['is_profit'] = data.apply(lambda x : if_profit(x["performance"]),axis=1)data.head()##计算盈利多少yingli = (data['is_profit'] == 1).sum()yingli##亏损多少kuisun = (data['is_profit'] == -1).sum()kuisun
通过绘制饼图实现可视化:
plt.pie([yingli,kuisun], labels=['盈利','亏损'], autopct='%.2f%%')font={ "family":"kaiti", "size":"15"}plt.rc("font",**font)plt.title('148家公司盈利和亏损情况占比')plt.show()
上述内容就是如何实现Python抓取数据到可视化全流程的实现,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
业绩
数据
正则
盈利
可视化
内容
表达式
亏损
流程
成功
代码
情况
技能
知识
股票
简明
简明扼要
信息
公司
净利
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
qt软件开发工具最新正式版
服务器网络上下行速度不一致
超越云服务器
网络安全法哪一年
网络安全技术干啥的
电信网络安全和隐私
app软件开发公司哪个好
软件开发所需人员及其作用
Web页面的数据库技术实验
刀片服务器 虚拟机
多之星服务器
ckf网络安全是什么
安陆市软件开发项目管理
数据库实施包括哪些步骤
浙江营销网络技术哪个好
动态获取数据库时间
中国循证医学临床试验登记数据库
网络安全与国家形象
网络安全问题开展宣传标语
服务器安全方
万户网络技术有限公司续费
小型酒店的管理与服务器
动态网络安全问题
计算机网络技术实训方案
战网如何调成国区服务器
工程机服务器亮黄灯
欣网互联网络科技和京东物流
在数据库中产生数据不一致的根本原因是
mysql环境建设的数据库代码
软件开发中分析工具