导航：首页 > 互联网科技 >

Hadoop中HDFS小文件产生场景及其处理方案

发表于：2025-12-03 作者：千家信息网编辑

千家信息网最后更新 2025年12月03日，影响： 1、文件的元数据存储在namenode中，每个文件的元数据都差不多大，小文件过多会极大的占用namonode的内存，制约集群的扩展。（主要影响） 2、在对小文件进行处理的时候，一个

千家信息网最后更新 2025年12月03日Hadoop中HDFS小文件产生场景及其处理方案

影响：    1、文件的元数据存储在namenode中，每个文件的元数据都差不多大，小文件过多会极大的占用namonode的内存，制约集群的扩展。（主要影响）    2、在对小文件进行处理的时候，一个小文件对应一个maptask，一个maptask会起一个jvm进程，进程的开启销毁会严重性能。（jvm复用）产生场景：    1、实时处理：比如我们使用 Spark Streaming 从外部数据源接收数据，然后经过 ETL 处理之后存储       到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。    2、hive中对表执行insert操作，每次插入都在表目录下形成一个小文件。       创建表结构相同的表，create table t_new as select * from t_old;       老表根据实际情况可以删除就删除。    3、hive中执行简单过滤操作，符合过滤条件的数据存在很多block块中，只走map，map输出有很多小文           件。         开启map端的聚合。           4、mapreduce正常执行产生小文件。        将mapreduce输出不直接写hdfs，而是写入到hbase中。        设置map端文件合并及reduce端文件合并。    5、输入数据文件为小文件。        小文件合并后再计算。        CombineFileInputFormat： 它是一种新的inputformat，用于将多个文件合并成一个单独的                                split，另外，它会考虑数据的存储位置。通用处理方案：1、Hadoop Archive    Hadoop Archive或者HAR，是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件打包成一个HAR文件，这样在减少namenode内存使用的同时，仍然允许对文件进行透明的访问。2、Sequence file    sequence file由一系列的二进制key/value组成，如果为key小文件名，value为文件内容，则可以将大批小文件合并成一个大文件。底层处理方案：HDFS-8998:    DataNode划分小文件区，专门存储小文件。一个block块满了开始使用下一个block。HDFS-8286：    将元数据从namenode从内存移到第三方k-v存储系统中。 HDFS-7240：    Apache Hadoop Ozone,hadoop子项目，为扩展hdfs而生。

很赞哦！