怎么用Python分析全网取暖器数据
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇内容主要讲解"怎么用Python分析全网取暖器数据",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用Python分析全网取暖器数据"吧!用Pytho
千家信息网最后更新 2025年12月01日怎么用Python分析全网取暖器数据
本篇内容主要讲解"怎么用Python分析全网取暖器数据",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"怎么用Python分析全网取暖器数据"吧!
用Python分析全网取暖器数据
我们使用Python获取了淘宝网搜索关键词暖气片、取暖器、壁挂炉的商品数据,并进行了数据分析。
读取数据
首先导入获取的数据。
# 导入工具包import numpy as np import pandas as pd from pyecharts.charts import Bar, Pie, Map, Pagefrom pyecharts import options as optsimport jieba # 读取数据df_all = pd.read_csv('../data/导出数据.csv')df_all.head()df_all.shape(13212, 7)
数据清洗和整理
此处我们需要对数据集进行数据清洗以便后续分析和可视化,主要工作内容如下:
删除记录的重复值
goods_price列处理:提取数值
purchase_num列处理:提取数值
计算销售额sales_volume = goods_price*purchase_num
删除多余的列
代码实现如下:
df = df_all.copy()# 去除重复值df.drop_duplicates(inplace=True)df.shape(6849, 7)# 筛选记录df = df[df['purchase_num'].str.contains('人付款')]# goods_price列处理df['goods_price'] = df['goods_price'].str.extract('(\d+\.{0,1}\d*)') df['goods_price'] = df['goods_price'].astype('float')# purchase_num列处理df['num'] = df['purchase_num'].str.extract('(\d+\.{0,1}\d*)')df['num'] = df['num'].astype('float') df['unit'] = [10000 if '万' in i else 1 for i in df['purchase_num']]# 计算销量df['purchase_num'] = df['num'] * df['unit']# 计算销售额df['sales_volume'] = df['goods_price'] * df['purchase_num']# 提取省份字段 df['province_name'] = df['location'].astype('str').str.split(' ').apply(lambda x:x[0]) # 删除多余的列df.drop(['num', 'unit', 'detail_url'], axis=1, inplace=True)# 重置索引df = df.reset_index(drop=True)df.head()可以看到"取暖器">
接着,看到店铺月销量排名Top10。
店铺月销量排名Top10
可以看到店铺销量前十,凯瑞莱旗舰店位居第一。其后春尚电器专营店和苏宁易购分别是第二第三名。排在前十的还有美的、tcl等品牌。
# 计算top10店铺shop_top10 = df.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)全国各省份产地销量排名Top10
这些取暖器的产地都在哪儿呢?经过分析发现,浙江是生产取暖器的头号大省,在产地销量排名中一骑绝尘位居第一。之后排在第二位的是广东。湖南、江苏、山东分别位居第三第四第五名。
# 计算销量top10province_top10 = df.groupby('province_name')['purchase_num'].sum().sort_values(ascending=False).head(10)不同价格区间的商品数量占比
取暖器都卖多少钱呢?经过分析发现,100元以下的商品是最多占比高达34.76%。其次是200-500元的商品,占比22.09%。
不同价格区间的销量占比
与此同时,在销量方面,价格在100元以下和100-200元之间的取暖产品也是销量最好的,全网销售量分别占比37.49%和35.92%。
到此,相信大家对"怎么用Python分析全网取暖器数据"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
数据
销量
取暖器
分析
全网
商品
店铺
处理
产地
价格
内容
销售
不同
区间
数值
省份
销售额
学习
清洗
更深
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
服务器管理员无权限访问
深圳闪工族互联网科技公司
查看软件调用数据库的表
陶瓷饰品的销量数据库
网络安全工作宣传长标语
淄博进销存管理软件开发
北京同创网络技术有限公司
服务器被攻击后怎样处理
数据库文件的扩展名a
网络安全法实名认证方式
潮州小程序软件开发
魔兽世界哪些是70级服务器
网络技术专科毕业
手机应用商店软件开发
成都游戏服务器招聘
王者荣耀破晓之神服务器
世界技能选拔赛网络安全试题
服务器上部署软件
丰巢快递柜服务器异常
安装08数据库配置工具
主要服务器页面技术有哪些
监控服务器脚本
360网络安全运营服务住宿
录播服务器参数
南湖新区网络安全宣传
网络安全系列教育课程内容
软件开发中算法有生什么作用
服务器安全狗 注册
空间数据库设计基本原则
数据库建表无法约束