Hive数据倾斜（大表join大表）【优化】

wxj19911117 · 发表于 2018-9-11 16:37:33

[mw_shl_code=sql,true]select count(*) from original_basks_tof_20180910;
--10961116
select count( *)
from original_basks_tof_20180910 a
where a.cust_code ='';
--3294740

create table original_basks_tof_20180910_add
as
select a.*,b.cust_id
from original_basks_tof_20180910 a
left join bnh_customers b
on case when a.cust_code = '' then concat('harb',rand()) else a.cust_code end = b.cust_code ;
--547.206 seconds
--10961116

create table original_basks_tof_20180910_add_2
as select a.*,b.cust_id
from original_basks_tof_20180910 a
left join bnh_customers b
on a.cust_code = b.cust_code ;
--358.698 seconds
--10961116

create table original_basks_tof_week_id_add as
select distinct a.*, b.cust_id as cust_id_new,a.bask_id +400200252929106 as bask_id_new
from original_basks_tof_week_id a
join
original_basks_tof_20180910_add_2 b
on a.bask_code = b.bask_code
--10688474[/mw_shl_code]
你好,为什么我的速度反而不入正常的情况呢，是数据量小了吗

wxj19911117 · 发表于 2018-9-25 11:12:56

javaanddonet 发表于 2018-4-24 10:42
有一个问题：
from trackinfo a
left outer join pm_info b

楼主的意思是到时再insert左表那些不匹配的数据，同时上面的数据也能谓词下推吗。。。感觉hive的优化好难啊，很多实际的结果和网上看到的不一样

About380713049 · 发表于 2018-9-28 21:34:08

学习了，感谢分享，非常好的资源

qq941199 · 发表于 2018-10-16 14:52:39

感谢楼主分享的经验，有点启发

刘鑫 · 发表于 2018-11-6 17:39:07

楼主，请问大数量下 count（distinct )...group by 怎么优化。例如。select a,count(b),count(distinct c),count(distinct d) from tablename group by a

s060403072 · 发表于 2018-11-6 18:59:33

刘鑫发表于 2018-11-6 17:39
楼主，请问大数量下 count（distinct )...group by 怎么优化。例如。select a,count(b),count(distinct c), ...

老铁不可能这么多count的，要么统计行，要么统计其中一个。这么多count不符合逻辑。
由于有count，因此默认是有一个reducer的，这样效率就会很慢，所以可以使用分组分别统计。
如果你想统计,是不能用a来进行分组的。可以自己制作一个flag来分组。
count由于只有一个reduce来统计。因此如果不优化会非常的慢。那么怎么优化那？
既然整个只产生一个reduce，那么我们就把他们分别统计，然后在统计。那么如何实现分别统计，通过group by分组。那么分组不能按照被统计的分组。可以制造一个flag，来进行分组。
首先我们第一层：
select cast(rand() * 10 as bigint) flag,A from tablename group by A
我们记为表t1
1层使用随机数作为分组依据，同时使用group by A保证去重。

第二层，每个分组进行统计
select count(*) tc, tag from t1 group by tag
上面记为t2

第三层对分组结果求和。
SELECT SUM(tc) FROM t2

整合为一个sql为：
SELECT SUM(tc) FROM (select count(*) tc, tag from (select cast(rand() * 10 as bigint) flag,A from tablename group by A )t1 group by tag )t2;

慢慢来 · 发表于 2018-12-29 21:28:10

谢谢分享

图文精华

Hive数据倾斜（大表join大表）【优化】

推荐 /2