千家信息网

hive小文件如何合并

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章主要介绍 hive小文件如何合并,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!起因:最近仓库里面新建了一张分区表,数据量大约是12亿行,分区比较多,从2008年7月开始
千家信息网最后更新 2025年12月02日hive小文件如何合并

这篇文章主要介绍 hive小文件如何合并,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

起因:

最近仓库里面新建了一张分区表,数据量大约是12亿行,分区比较多,从2008年7月开始 一天一个分区。

配置了一个任务

对这个表进行group by 的时候 发现启动了2800多个maps .

执行的时间也高大10分钟。

然后我在hdfs文件里面看到 这个表的每个分区里面都有20多个小文件,每个文件都不大 300KB--1MB

之前的hive的参数:
hive.merge.mapfiles=true
hive.merge.mapredfiles=false
hive.merge.rcfile.block.level=true
hive.merge.size.per.task=256000000
hive.merge.smallfiles.avgsize=16000000

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

mapred.max.split.size=256000000
mapred.min.split.size=1
mapred.min.split.size.per.node=1
mapred.min.split.size.per.rack=1

hive.merge.mapredfiles 这个指的是 在Map-Reduce的任务结束时合并小文件

解决办法:

1.修改参数hive.merge.mapredfiles=true

2.通过map_reduece的办法生成一张新的表 此时生成的文件变成了每个分区一个文件

再次执行group by 发现效率得到了大大的提升。

以上是" hive小文件如何合并"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!

文件 任务 内容 办法 参数 多个 篇文章 生成 高大 不大 仓库 价值 兴趣 再次 小伙 小伙伴 效率 数据 时候 时间 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 郑州互联网科技有限公司 英国游戏软件开发大学 广东pdu服务器专用电源哪里有 商店管理系统数据库怎么建表 万科成本数据库表格 包头软件开发规范 网络安全培训上市公司 温州外协加工软件开发教程 php遍历数据库并存储 面向可信软件开发的形式化方法 杭州游戏软件开发公司前景 百度时代网络技术 北京 武汉软件开发公司的英文 湖北正规网络技术分类市场价 枪火游侠服务器断网 cad库本地服务器 农业银行软件开发和银联比较 湖南本地软件开发定制加盟报价 电脑访问服务器的方法 河北邢台app软件开发工程师 组织机构数据库设计 数据库2021河北专科招生计划 网络安全警示教育目的 忻州民宿软件开发 五种网络技术并行计算 英语四六级报名显示服务器繁忙 深圳扫码点餐软件开发 北京软件开发公司电话 网络安全第一责任人工作体系 暗黑2天天炸服务器啊
0