hadoop2.6.4部分数据丢失如何解决

zhuqitian · 发表于 2017-2-28 20:43:33

1.如果现实中上传数据，数据特别大，数据这个别的数据丢了怎么办，应当如何处理？
基本上不会出现丢数据除非副本数<3，并且集群规模也特别小
2.为什么这里有个别数据丢失，原因是什么，请大神们指点迷津
看下你有几台datanode
3.我用hdfs dfs -copyFromLocal命令传小文件几KB的文件没问题，为什么传7.3G的txt就有报错Bad connect ack with firstBadLink，这是网络原因造成的么？
分布式对网络要求很高，或者尝试用别的命令试试，比如put或者用hive load的方式，是在不行就用拆小文件
4.hadoop本身对这种数据丢失没有机制处理么？譬如:某个机器的down掉了，这台机器上的数据没了怎么办？
hadoop是心跳机制的，只要不是大批量宕机不会影响取数，因为副本数默认是三个的，发现有宕机现象重启那台机器或者就算是打算撤掉那台机器了，可以运行balancer那个服务去同步节点间数据，可以负载均衡

yaojiank · 发表于 2017-2-28 21:14:28

1.如果现实中上传数据，数据特别大，数据这个别的数据丢了怎么办，应当如何处理？
这个可以看下上传原理。一般是先上传一份，上传过程中，不断复制到其它节点。如果网络出现问题，如防火墙问题，可能出现副本问题。但是至少会有一个副本。一般不会丢，除非机器挂掉。
2.为什么这里有个别数据丢失，原因是什么，请大神们指点迷津
个别数据丢失，就是如上面，可能网络原因导致，由第一个副本，复制到第二个副本的过程中，产生问题
3.我用hdfs dfs -copyFromLocal命令传小文件几KB的文件没问题，为什么传7.3G的txt就有报错Bad connect ack with firstBadLink，这是网络原因造成的么？
数据量一大，可能会造成网络问题，i/o问题等
4.hadoop本身对这种数据丢失没有机制处理么？譬如:某个机器的down掉了，这台机器上的数据没了怎么办？
如果某个机器down掉，hadoop会自动恢复，不过需要一定的时间。如果三个副本都丢了，那就没有了。

SuperDove · 发表于 2017-3-1 17:27:54

谢谢两位大神，学习了，过段时间总结出来

图文精华

hadoop2.6.4部分数据丢失如何解决

已有(3)人评论

最佳新人

热心会员

荣誉管理

推荐 /2