分享 一个很小的表和一个超级大表关联,用Hadoop怎么处理?
redhat1986 2016-4-13 20:51
MapReduce中的join分为好几种,比如有最常见的 reduce side join、map side join和semi join 等。reduce join 在shuffle阶段要进行大量的数据传输,会造成大量的网络IO效率低下,而map side join 在处理多个小表关联大表时非常有用 。 Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而 ...
个人分类: 面试题|1508 次阅读|0 个评论
分享 Hive 面试题
redhat1986 2015-6-2 10:37
表结构: uid datetime device_id xxx xxx 111  ...
个人分类: 面试题|1736 次阅读|1 个评论 热度 2
关闭

推荐上一条 /2 下一条