博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hive 中分区是否越多越好?
阅读量:4073 次
发布时间:2019-05-25

本文共 315 字,大约阅读时间需要 1 分钟。

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见

正文

  1. hive 如果有过多的分区,由于底层是存储在 HDFS 上,HDFS 上只用于存储大文件而非小文件,因为过多的分区会增加 NameNode 的负担。

可以参考我的这篇博客来理解——

  1. hive 会转化为 MapReduce, MapReduce 会转化为多个 task。过多小文件的话,每个文件一个 task,每个 task ー个 JVM 实例,JVM 的开启与销毀会降低系统效率。

注意: 合理的分区不应该有过多的分区和文件目录,并且每个目录下的文件应该足够大

转载地址:http://pzgji.baihongyu.com/

你可能感兴趣的文章
在Navicat for MySQL中修改表的编码格式
查看>>
Django+layui 实现多文件上传,文件下载
查看>>
dubbo 入坑笔记之命名空间错误
查看>>
JSP中实现关键字高亮显示
查看>>
form表单嵌套提交
查看>>
Error:(3, 32) java: 程序包org.springframework.boot不存在
查看>>
用python画一只可爱的布朗熊
查看>>
【spring】spring boot多数据源配置(方式二)
查看>>
【RPC】一步一步实现基于netty+zookeeper的RPC框架(一)
查看>>
【RPC】一步一步实现基于netty+zookeeper的RPC框架(二)
查看>>
【RPC】一步一步实现基于netty+zookeeper的RPC框架(三)
查看>>
【RPC】一步一步实现基于netty+zookeeper的RPC框架(四)
查看>>
【RPC】一步一步实现基于netty+zookeeper的RPC框架(五)
查看>>
【RPC】一步一步实现基于netty+zookeeper的RPC框架(六)
查看>>
生成支持分布式部署的唯一id代码实现
查看>>
支持分表的ORM框架实现
查看>>
jquery easyui datagrid subgrid edit
查看>>
java集合(ArrayList、vector、HashMap、HashTable)源码剖析
查看>>
补充另一版ArrayList的初始化过程
查看>>
java接口不能实例化原因浅谈
查看>>