分享

spark streaming 是否可以按照不是时间片而是数据量处理

ltne 发表于 2016-11-22 10:09:21 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 6 11276
现在有个项目要求:
需要每隔五秒提交一个作业,处理传入spark集群最近的1000条数据,所以这里经过streaming传入的数据必须要先做存储,另外设定一个定时器每间隔5秒处理一次,这个该如何实现呢,大家有何思路呢?

已有(6)人评论

跳转到指定楼层
kxiaozhuk 发表于 2016-11-22 11:18:56
可不可以在传入spark集群的时候先做数据累计存储,超过1000条再往spark集群发送,这样子,streaming端设置5秒处理一次就行了,
回复

使用道具 举报

desehawk 发表于 2016-11-22 12:43:50
不能改变框架,除非自己二次开发。变通的方法,楼上的也是解决办法
回复

使用道具 举报

hufan2005 发表于 2016-11-23 12:32:14
storm满足需求
回复

使用道具 举报

Robin_S 发表于 2016-11-23 14:34:25
用窗口操作应该能解决吧
回复

使用道具 举报

Tiny_123 发表于 2016-11-25 09:06:22

用storm去做的思路是什么呢........
回复

使用道具 举报

ltne 发表于 2016-11-27 18:26:42
最后是用了一个内存的1000循环队列,每相隔五秒钟,将队列提交给spark,后来考虑用redis也可以把,大家还有什么其他的方法吗?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条