如何合并Hive表中的小文件如何合并Hive表中的小文件

2021-11-24 18:57:08

HDFS不适合大量小文件的存储，因namenode将文件系统的元数据存放在内存中，因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存甚至撑爆内存。HDFS适用于高吞吐量，而不适合低时间延迟的访问。如果同时存入大量的小文件会花费很长的时间。本篇文章主要介绍在CDH6.3.0集群中如何对Hive表小文件进行合并。

环境说明：

系统:centos7.4

cdh:6.3.0

为了让小文件数量和分区数达到合并效果，本文进行了多次导入

可以看到共12个分区

主要查看总的小文件数量，和batch_date=20210608分区的文件数量

创建临时表时需和原表的表结构一致

如上图101个文件数合并为12个,共12个分区，每个分区下的文件被合并为了一个

确认合并后数据无异常后清理，建议数据保留一周

1.本文原表中共12个分区，101个小文件，合并后共12个文件，其每个分区中一个。

2.本文是针对CDH集群操作，如果是在CDP集群中Hive的底层执行引擎是TEZ,，所以相比CDH需要修改以前的合并参数“SET hive.merge.mapfiles=true”为“SET hive.merge.tezfiles=true;”。

如何合并Hive表中的小文件如何合并Hive表中的小文件

继续阅读

微信小程序前端解密获取用户信息

Spring MVC 自学杂记（五） -- SpringMVC与前台的json数据交互

《MySQL技术内幕：InnoDB存储引擎》笔记

扩容TIKV节点遇到的坑

大数据技术原理与应用（最后三天备考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

PHP辅导代做编程：CS353 Database System

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

自学Zabbix3.10.2-事件通知Notifications upon events-Actions报警配置点击返回：自学zabbix集锦

HDU 5678 ztr loves trees

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

二叉树及其应用--二叉树创建

HiveQl语句应用实例：WordCount具体步骤如下：

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

详解STM32单片机的堆栈

JBoss,Geronimo和Glassfish初窥