Python遍历目录下文件、读取、千万条数据合并实例分析
发表于:2025-11-07 作者:千家信息网编辑
千家信息网最后更新 2025年11月07日,这篇文章给大家介绍Python遍历目录下文件、读取、千万条数据合并实例分析,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。一、使用Python进行文件和文件夹的判断递归 :主要目的
千家信息网最后更新 2025年11月07日Python遍历目录下文件、读取、千万条数据合并实例分析
这篇文章给大家介绍Python遍历目录下文件、读取、千万条数据合并实例分析,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
一、使用Python进行文件和文件夹的判断
递归 :主要目的就是遍历文件夹和文件
对文件夹和文件进行属性判断
首先对文件夹进行遍历,看文件夹里有什么样的文件,读取出文件夹中的所有文件
import ospath= "./data" #路径files = os.listdir(path)#os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。for file in files: print(file) if os.path.isfile(path+ "/"+file): #os.path.isfile(path) 判断路径是否为文件 print('file'+'这是一个文件') filename,extension = os.path.splitext(file) #分割路径,返回路径名和文件扩展名的元组 if extension == ".txt": print(filename+'这是一个文本文件') elif extension == ".xlsx": print(filename+'这是一个excel文件') if os.path.isdir(path + "/" +file): print(file+"是一个文件夹")读取结果:

二、使用Python完整的获取所有文件及文件夹并读取相应的文件
在我们遍历文件夹的基础上,如何实现快速读取指定文件,提高工作效率?
只需要在上述代码的基础上,导入pandas包,read_excel_我们所需要的文件即可
import pandas as pdimport os path = './data'def get_all_files(path): print('-'*25+'函数被调用'+'-'*25) files = os.listdir(path)#os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。 for file in files: if os.path.isfile(path+ "/"+file): #os.path.isfile(path) 判断路径是否为文件 print('file'+">>>>>是文件") filename,extension = os.path.splitext(file) #分割路径,返回路径名和文件扩展名的元组 if extension == ".txt": print(filename+"#####是文本文件#####") print("读取"+filename+"文件中的内容...........") data = pd.read_table(path+'/'+file) print(data) elif extension == ".xlsx": print(filename+'#####是Excel文件#####') print("读取"+filename+"文件中的内容...........") data = pd.read_excel(path+'/'+file) print(data) elif extension == ".csv": print(filename+'#####是csv文件#####') print("读取"+filename+"文件中的内容...........") data = pd.read_csv(path+'/'+file) print(data) if os.path.isdir(path + "/" +file): print(file+"¥¥¥¥¥¥¥是文件夹¥¥¥¥¥¥¥") get_all_files(path+'/'+file)get_all_files(path)
读取成功!
三、使用Python合并数据
在日常工作中我们有很多表格需要处理,如何批量的将很多个文件夹中的表格合并到一起?
重点:
DataFrame.append(*other*, *ignore_index=False*, *verify_integrity=False*, *sort=None*)
append的使用
other:是要添加的数据,append很不挑食,这个other可以是dataframe,dict,Seris,list等等。ignore_index:参数为True时将在数据合并后,按照0,1,2,3....的顺序重新设置索引,忽略了旧索引。verify_integrity:参数为True时,如果合并的数据与原数据包含索引相同的行,将报错。
path='./project_data' ## 声明一个空的DataFrame,用来做最终的数据合并final_data = pd.DataFrame()# 声明一个空的DataFrame,用来做最终的数据合并final_data = pd.DataFrame() def get_all_files(path): global final_data print("-"*20 + "函数被调用" + "-"*20) files = os.listdir(path) for file in files: if os.path.isfile(path + "/" +file): print(file+">>>>>是文件") filename,extension=os.path.splitext(file) # 判断是不是文本文件 if extension == ".txt" : print(filename+"#####是文本文件#####") print("读取"+filename+"文件中的内容...........") data = pd.read_table(path+'/' +file) print(data) elif extension=='.xlsx': print(filename+"#####是Excel文件#####") print("读取"+filename+"文件中的内容...........") data = pd.read_excel(path+'/' +file) print(data) elif extension=='.csv': print(filename + "是csv文件,是本次需要处理的文件") # 获取文件内容 file_data = pd.read_csv(path +'/'+file) final_data = final_data.append(file_data,ignore_index=True) #append描述:在列表ls最后(末尾)添加一个元素object print("《《《《合并"+filename+"文件数据》》》》") # 判断是不是文件夹 elif os.path.isdir(path+'/'+file): print(file + "¥¥¥¥是文件夹¥¥¥¥¥¥") get_all_files(path + '/' + file)get_all_files(path)print("数据合并完成")开始合并,我们来查看一下合并后的数据:
总共1000多万条数据,如果我们用Excel的话估计要很多时间将这么多表格合并,而且会很卡。
关于Python遍历目录下文件、读取、千万条数据合并实例分析就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
文件
文件夹
数据
内容
路径
文本
万条
索引
表格
这是
实例
实例分析
目录
分析
函数
参数
名字
基础
扩展名
方法
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
服务器内网和外网哪个好
小公司内网络安全与文件保密
输入密码进不了服务器
软件开发的好选择
专科患者数据库
计算机网络技术的发展前沿
随着网络技术
邮箱服务器地址一览表
ipv9国家网络安全个股
松江区环保网络技术销售公司
康帕斯企业名录数据库
广东专业网络技术分类价目表
租用日本服务器光算云怎么样
网络安全年会创意
世界银行数据库与中亚旅游相关
数据库散点图
悟空说网络安全法视频全集
5g时代的网络安全趋势
软件开发如何去水印
抚州高性价比服务器哪里好
软件开发是否属于高新
静安区智能化软件开发专业服务
网络安全手抄报电子版模版
数据库没有卸载完
服务器事件10149
如何选择网络安全模式
天津网络安全产业基地
云服务器 ecs
u8怎么删除数据库客户记录
服务器开服2天