数据清洗常用的2个小trick分别是什么
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,今天就跟大家聊聊有关数据清洗常用的2个小trick分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。Pandas 巧用 str.spli
千家信息网最后更新 2025年12月02日数据清洗常用的2个小trick分别是什么Pandas 巧用


今天就跟大家聊聊有关数据清洗常用的2个小trick分别是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
Pandas 巧用 str.split 和 str.cat
因为以上两个方法,直接按列操作,所以省掉一层 for 循环,下面直接看例子。
df = pd.DataFrame({'names':["Geordi La Forge", "Deanna Troi", "Jack"],'IDs':[1,2,3]})
df

列分割
对 names 列,按照第一个空格分割为两列:
df["first_name"] = df["names"].str.split(n = 1).str[0]
df["last_name"] = df["names"].str.split(n = 1).str[1]
df
结果如下:

列合并方法 1
分割列搞定,接下来再合并回去,使用 cat 方法:
df["names_copy"] = df["first_name"].str.cat(df["last_name"], sep = " ")
df
合并两列得到一个新列 names_copy 搞定!
列合并方法 2
还有别的合并方法吗,直接使用 + 连接字符串:
df["names_copy2"] = df["first_name"] + " "+ df["last_name"]
df
效果是一样的:
Pandas 多条件筛选可读性较好的写法
有特征上百个,根据多个特征筛选 DataFrame 时,如果这么做,可读性不太友好:
df[(df["continent"] == "Europe") & (df["beer_servings"] > 150) & (df["wine_servings"] > 50) & (df["spirit_servings"] < 60)]
连续多个筛选条件写到一行里。
更好可读性的写法
cr1 = df["continent"] == "Europe"
cr2 = df["beer_servings"] > 150
cr3 = df["wine_servings"] > 50
cr4 = df["spirit_servings"] < 60
df[cr1 & cr2 & cr3 & cr4]
看完上述内容,你们对数据清洗常用的2个小trick分别是什么有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
方法
内容
可读性
常用
数据
清洗
写法
多个
条件
特征
接下来
一行
两个
例子
字符
字符串
效果
更多
知识
空格
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
属于网络安全措施的是
安卓开发自带数据库
2008的数据库怎么恢复
网络安全的试题和答案
主从数据库数据同步
就业岗位计算机网络技术
安卓系统怎么连接服务器
中国万芳论文数据库
艺术人体视频软件开发
服务器的主机怎样连接
数据库查看log
网络安全大赛活动
各个检索数据库的有趣功能
郑州分布式服务器排名
中国学位论文全文数据库网址
古剑奇谭木语人官网服务器是哪些
肉肉微博 网络安全
上海软件开发黄浦区人物
数据库设计举例
脏小豆服务器指令
劳动防护用品管理数据库
江门软件开发难吗
戴尔霄龙服务器近期行情
农安有名的网络技术服务什么价格
数据库插入报错
重庆网络安全征集
服务器开机没有信号输出
软件开发涉及规范标准
网络安全手抄报素材霸气
葫芦娃兄弟服务器