分享

关系型数据库到hdfs数据一致性问题

zhuqitian 发表于 2017-8-7 17:09:13 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 7910
企业中很多系统产生的数据会存放在关系型数据库,然后同步到hdfs进行批处理,有一个场景是这样的:mycat中的数据实时同步到hdfs,但是过一段时间mycat表中数据会发生变化,比如电商业务中发货状态,同步的时候是未发货,
过了一天发货状态修改为全部发货了,这种场景下如何保持两端的数据一致性?

已有(2)人评论

跳转到指定楼层
qcbb001 发表于 2017-8-7 17:52:56
可以同时同步,不过同步的时候,如果是同一条数据,那就需要覆盖了。如果整条数据,只有发货状态是变的,那就覆盖发货状态。
或则说另外一条数据,如果有最新的就在hdfs中,取最新的数据。
回复

使用道具 举报

zhuqitian 发表于 2017-8-7 19:56:45
qcbb001 发表于 2017-8-7 17:52
可以同时同步,不过同步的时候,如果是同一条数据,那就需要覆盖了。如果整条数据,只有发货状态是变的,那 ...

直接同步到hive是不可取的,咨询了其他人得知比较好的解决方案是:canal+kafka+storm/sparkstreaming+hbase,这种可以避免直接操作hdfs,若是数据有变更,直接更新hbase就行
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条