分享

(偏业务)针对跨天去重的计算如何做?

xingoo 发表于 2017-2-9 10:49:53 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 17 21445
xingoo 发表于 2017-2-9 14:40:02
einhep 发表于 2017-2-9 14:21
并且框架说的不全。hadoop直接搜索??应该至少有hive或则hbase吧。

这个是实现搜索功能吧

整个架构,可以简单的说一下。

1 原始数据存储在数据库,都是日常流水信息--->
2 通过sqoop每天抽取到hdfs-->
3 利用spark进行离线计算,结果保存到hdfs-->
4 通过sqoop结果存储到数据库-->
5 前端通过spring mvc+mybatis查询数据库,出图表展现。


你说的通过es搜索,也尝试过把db换成es,但是效果并不明显。
回复

使用道具 举报

einhep 发表于 2017-2-9 19:44:04
xingoo 发表于 2017-2-9 14:40
整个架构,可以简单的说一下。

1 原始数据存储在数据库,都是日常流水信息--->

不需要,这样太麻烦了。
只需要将索引放到es里即可。这是比较常见的形式。hbase也是。
回复

使用道具 举报

sehriff 发表于 2017-2-14 11:13:30
hbase   key-value:<id:1>   多次put<id:1>查出来还是1
回复

使用道具 举报

xingoo 发表于 2017-2-14 11:30:23
sehriff 发表于 2017-2-14 11:13
hbase   key-value:   多次put查出来还是1

恩,打算最近研究下hbase,看看场景适合不
回复

使用道具 举报

evababy 发表于 2017-2-15 13:36:54
个人觉得还是应该按照最小单位先算出基础结果(天),其次才是根据业务计算隔天、隔月的业务数据,业务数据也应该存储,并非实时查询组合。
回复

使用道具 举报

xingoo 发表于 2017-2-17 08:24:44
evababy 发表于 2017-2-15 13:36
个人觉得还是应该按照最小单位先算出基础结果(天),其次才是根据业务计算隔天、隔月的业务数据,业务数据 ...

恩,现在确实是这样。不过有时候业务明确要求隔天去重,就只能采用其他的办法了
回复

使用道具 举报

bashenan 发表于 2019-2-14 10:19:27
你的这个需求应该是kylin的精确去重吧
回复

使用道具 举报

co_hen 发表于 2020-2-27 12:44:26
楼主是不是想找实时处理流kafka去重???我最近也在想这个,不过还没有比较好的实现方案,楼主觉得用AsyncFunction异步io和结果数据join去重怎么样?能实现吗?
回复

使用道具 举报

12
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条