如何使用Pandas分块处理大文件
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。使用Pandas分块处理大文件问题:今天在处理快手的用户数据时,遇
千家信息网最后更新 2025年12月01日如何使用Pandas分块处理大文件
这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
使用Pandas分块处理大文件
问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。
解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator
原理就是不一次性把文件数据读入内存中,而是分多次。
1、指定chunksize分块读取文件
read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。
table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) for df in table: 对df处理 #如df.drop(columns=['page','video_id'],axis=1,inplace=True) #print(type(df),df.shape)打印看一下信息12345
我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)
2、指定iterator=True
iterator=True同样返回的是TextFileReader对象
reader = pd.read_table('tmp.sv', sep='\t', iterator=True) df=reader.get_chunk(10000) #通过get_chunk(size),返回一个size行的块 #接着同样可以对df处理感谢各位的阅读!关于"如何使用Pandas分块处理大文件"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
文件
处理
差不多
参数
数据
内容
对象
更多
篇文章
不错
实用
费劲
一次性
两个
个子
信息
内存
函数
原理
大小
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
嘉善市雨农网络技术工作室
外国服务器租金
超星数据库可以检索会议论文吗
网络安全法对违反网络
网络安全设备运维方案
互联网对科技影响英语作文
房间与服务器通信失败元气骑士
mysql 删数据库
徐汇区网络安全保卫支队
浙江电商软件开发定制费用
软件开发工程师工作态度
如何检测手机网络安全
网络安全作文1800
软件开发bim
stm进不去一直服务器加载不了
我的世界服务器装备怎么修改
什么是计算机网络安全漏洞
西城区制造软件开发价位
电厂人员网络安全不懂管控
中软有数据库么
内蒙古标准软件开发包括哪些
oracle跨数据库关联表
i春秋网络安全分享
添加路由器需要在总服务器设置吗
服务器老是重启怎样排查
sql数据库安装引擎失败
欧盟制裁网络安全
陕西云广互联网科技有限公司
数据库 业务场景
宁波畅想软件开发