分享

sparkstreaming读取kafka支持event Time(日志业务时间)吗

sparkstreaming 读取kafka日志数据,窗口处理为1分钟,日志数据自带时间戳,想根据日志时间戳进行分钟级别的数据统计,这个怎么支持实现?structed streaming 支持event Time,但是怎么让sparkstreaming 实现这种统计呢?
比如日志数据如下:
日志数据为id+request_time
想要根据kafka日志数据里面的request_time进行统计,但是日志数据传到sparkstreaming后的process_time肯定大于日志数据里面的时间,sparkstreaming接收过来的1分钟的窗口数据里面的日志数据跨分钟级别了

日志数据为id+request_time,想统计每分钟的访问人数,sparkstreaming窗口为1分钟

日志数据为id+request_time,想统计每分钟的访问人数,sparkstreaming窗口为1分钟

已有(2)人评论

跳转到指定楼层
s060403072 发表于 2019-7-27 22:17:56
没明白楼主什么意思,如果按照request_time,那就接受后,按照request_time排序或则作为key
回复

使用道具 举报

iot-lee 发表于 2019-7-29 11:43:02
s060403072 发表于 2019-7-27 22:17
没明白楼主什么意思,如果按照request_time,那就接受后,按照request_time排序或则作为key

比如一条日志生成业务的时间是10:00:00,等传到kafka时间10:00:00,spark streaming接受到日志的处理时间为10:01:01,如果按照日志业务时间进行统计每分钟的条数的话,得以日志业务时间进行分组,而不是接收到的处理时间。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条