分享

gfs的数据一致性

namewchwch 发表于 2013-10-16 13:38:43 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 7247
论文描述 client写数据 由pri-chunk返回所有chunk服务器上 chunk更新 状态。当有些 chunk更新失败 ,由client重新写尝试写 。
这种一致性不可靠吧,当有些 chunk更新失败时,client挂了 (断电 停机,或者其他的等等)这时候就产生了 chunk数据不一致。
这种数据一致性依赖于客户端的 健康 太不可靠了,求高手解释
              
               
               

已有(4)人评论

跳转到指定楼层
namewchwch 发表于 2013-10-16 13:39:40

            没有人能回答 ?
        
回复

使用道具 举报

ruishenh 发表于 2013-10-16 13:40:17

            说一下个人愚见,本人最近学习hadoop,可能理解有误,还望指出,就hadoop的本身会有一种心跳发送机制来看任务是否完成,还有数据验证功能,如果数据错误,它有可能会新启动一个job去完成这个,这个也会重新跑的,谁先跑完数据对,就会把非成功的所有job任务kill掉的,所以说当一个client失败了,会有其他的机器来启动这些任务,而且数据都是有分片的备份的。
        
回复

使用道具 举报

namewchwch 发表于 2013-10-16 13:40:59

            引用 2 楼 ruishenh 的回复:说一下个人愚见,本人最近学习hadoop,可能理解有误,还望指出,就hadoop的本身会有一种心跳发送机制来看任务是否完成,还有数据验证功能,如果数据错误,它有可能会新启动一个job去完成这个,这个也会重新跑的,谁先跑完数据对,就会把非成功的所有job任务kill掉的,所以说当一个client失败了,会有其他的机器来启动这些任务,而且数据都是有分片的备份的。
我说的是 gfs 不是hadoop的 mapper reducer。对应是应该是  hdfs
        
回复

使用道具 举报

namewchwch 发表于 2013-10-16 13:41:55

            对于每一个chunk会产生一个CRC校验码,所以如果client挂掉是可以判断该chunk是否正确完成。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条