Hive中Map端JOIN的示例分析
发表于:2025-11-12 作者:千家信息网编辑
千家信息网最后更新 2025年11月12日,小编给大家分享一下Hive中Map端JOIN的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Map端JOINmap
千家信息网最后更新 2025年11月12日Hive中Map端JOIN的示例分析
小编给大家分享一下Hive中Map端JOIN的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
Map端JOIN
map端join适用于当一张表很小(可以存在内存中)的情况,即可以将小表加载至内存。Hive从0.7开始支持自动转为map端join,具体配置如下:
SET hive.auto.convert.join=true; -- hivev0.11.0之后默认true
SET hive.mapjoin.smalltable.filesize=600000000; -- 默认 25m
SET hive.auto.convert.join.noconditionaltask=true; -- 默认true,所以不需要指定map join hint
SET hive.auto.convert.join.noconditionaltask.size=10000000; -- 控制加载到内存的表的大小
一旦开启map端join配置,Hive会自动检查小表是否大于hive.mapjoin.smalltable.filesize配置的大小,如果大于则转为普通的join,如果小于则转为map端join。
关于map端join的原理,如下图所示:
首先,Task A(客户端本地执行的task)负责读取小表a,并将其转成一个HashTable的数据结构,写入到本地文件,之后将其加载至分布式缓存。
然后,Task B任务会启动map任务读取大表b,在Map阶段,根据每条记录与分布式缓存中的a表对应的hashtable关联,并输出结果
注意:map端join没有reduce任务,所以map直接输出结果,即有多少个map任务就会产生多少个结果文件。
以上是"Hive中Map端JOIN的示例分析"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
任务
内存
篇文章
结果
配置
示例
分析
内容
分布式
大小
文件
缓存
输出
普通
不怎么
原理
大部分
客户
客户端
情况
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
稳抓网络安全
数据库版本不支持怎么办
智慧景区信息化软件开发方案
珙县网络技术有限公司
网络技术应用的意义
数据库设置主键外键语句
如何选择当前操作的数据库
高质量网络安全手抄报图片
单价查询数据库
数据库码键
当今网络安全主题是什么
怎样使服务器安全
建一个电商网站需要什么服务器
域名服务器怎么打开
网络安全知识进校园讲座视频
幼儿园网络安全等级保护制度
服务器防火墙在哪里设置
网络安全和相关工具
数据库表生成java
网络技术中级职称有用吗
软件开发生命周期的步骤
lol无法连接到服务器贴吧
一起长大的软件开发商
软件开发实训管理平台
菜鸟驿站管理系统数据库设计
数据库按天统计数据
数据库子查询返回多一行
v8国产数据库
学校网络安全文件
网络技术补考好过吗