分享

hive如何去掉重复数据,显示第一条

howtodown 2014-8-12 22:09:46 发表于 实操演练 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 149782
问题导读:
1.ROW_NUMBER() OVER的作用是什么?
2.在100万记录中,如何查询同一组数组的第二条记录?





本问题来自about云群39327136 群友“举杯邀明月”提出问题,与“云神夜”讨论得出答案,供大家参考

name  adx        tran_id                  cost        ts
ck        5         125.168.10.0           33.00   1407234660
ck        5         187.18.99.00           33.32   1407234661
ck        5         125.168.10.0           33.24   1407234661


我只要这两行,第三行的tran_id和第一行的重复了,所以我 要不最后面一行去重去掉

答案1:
  1. select
  2. t1.tran_id
  3. ,t2.
  4. ,t2.
  5. from
  6. (select distinct tran_id from table) t1
  7. join
  8. table t2
  9. on t1.tran_id=t2.tran_id
复制代码

评论:
如果使用distinct的话,我要把tran_id放在第一列,很丑查出来的数据



答案2:

  1. select * from (select *,row_number() over (partition by tran_idorder by timestamp asc) num from table) t where t.num=1;   
复制代码


分析:
row_number() over (partition by tran_idorder by timestamp desc) num   取num=1 的

这个是取  group by  按timestamp 排序的第一条数据

按每个 guid group  然后 按timestamp 排序 然后 加行标


然后去 行标为 1  的





附上:
ROW_NUMBER() OVER函数的基本用法

语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)

简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。
示例:
xlh           row_num
1700              1
1500              2
1085              3
710                4

row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组,在分组内部根据 COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(组内连续的唯一的)

实例:

初始化数据

create table employee (empid int ,deptid int ,salary decimal(10,2))
insert into employee values(1,10,5500.00)
insert into employee values(2,10,4500.00)
insert into employee values(3,20,1900.00)
insert into employee values(4,20,4800.00)
insert into employee values(5,40,6500.00)
insert into employee values(6,40,14500.00)
insert into employee values(7,40,44500.00)
insert into employee values(8,50,6500.00)
insert into employee values(9,50,7500.00)

数据显示为

empid       deptid      salary
----------- ----------- ---------------------------------------
1           10          5500.00
2           10          4500.00
3           20          1900.00
4           20          4800.00
5           40          6500.00
6           40          14500.00
7           40          44500.00
8           50          6500.00
9           50          7500.00

需求:根据部门分组,显示每个部门的工资等级

预期结果:

empid       deptid      salary                                  rank
----------- ----------- --------------------------------------- --------------------
1           10          5500.00                                 1
2           10          4500.00                                 2
4           20          4800.00                                 1
3           20          1900.00                                 2
7           40          44500.00                               1
6           40          14500.00                               2
5           40          6500.00                                 3
9           50          7500.00                                 1
8           50          6500.00                                 2

SQL脚本:

SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee












已有(3)人评论

跳转到指定楼层
Joker 发表于 2015-11-10 15:53:53
答案2少了order!
回复

使用道具 举报

凡梦星尘 发表于 2016-8-8 15:54:01
不错, 相当给力的row_number函数, 正好解决我遇到的一个问题。谢谢分享。
回复

使用道具 举报

applechaning 发表于 2016-8-8 16:11:23
非常感谢哇
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条