分享

hadoop2.6.4部分数据丢失如何解决

SuperDove 发表于 2017-2-28 20:23:53 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 11921

已有(3)人评论

跳转到指定楼层
zhuqitian 发表于 2017-2-28 20:43:33
1.如果现实中上传数据,数据特别大,数据这个别的数据丢了怎么办,应当如何处理?
基本上不会出现丢数据除非副本数<3,并且集群规模也特别小
2.为什么这里有个别数据丢失,原因是什么,请大神们指点迷津
看下你有几台datanode
3.我用hdfs dfs -copyFromLocal命令传小文件几KB的文件没问题,为什么传7.3G的txt就有报错Bad connect ack with firstBadLink,这是网络原因造成的么?
分布式对网络要求很高,或者尝试用别的命令试试,比如put或者用hive load的方式,是在不行就用拆小文件
4.hadoop本身对这种数据丢失没有机制处理么?譬如:某个机器的down掉了,这台机器上的数据没了怎么办?
hadoop是心跳机制的,只要不是大批量宕机不会影响取数,因为副本数默认是三个的,发现有宕机现象重启那台机器或者就算是打算撤掉那台机器了,可以运行balancer那个服务去同步节点间数据,可以负载均衡
回复

使用道具 举报

yaojiank 发表于 2017-2-28 21:14:28
1.如果现实中上传数据,数据特别大,数据这个别的数据丢了怎么办,应当如何处理?
这个可以看下上传原理。一般是先上传一份,上传过程中,不断复制到其它节点。如果网络出现问题,如防火墙问题,可能出现副本问题。但是至少会有一个副本。一般不会丢,除非机器挂掉。
2.为什么这里有个别数据丢失,原因是什么,请大神们指点迷津
个别数据丢失,就是如上面,可能网络原因导致,由第一个副本,复制到第二个副本的过程中,产生问题
3.我用hdfs dfs -copyFromLocal命令传小文件几KB的文件没问题,为什么传7.3G的txt就有报错Bad connect ack with firstBadLink,这是网络原因造成的么?
数据量一大,可能会造成网络问题,i/o问题等
4.hadoop本身对这种数据丢失没有机制处理么?譬如:某个机器的down掉了,这台机器上的数据没了怎么办?
如果某个机器down掉,hadoop会自动恢复,不过需要一定的时间。如果三个副本都丢了,那就没有了。

回复

使用道具 举报

SuperDove 发表于 2017-3-1 17:27:54
谢谢两位大神,学习了,过段时间总结出来
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条