请教关于数据存储的问题？

我目前在虚拟机上安装了分布式的hadoop2.7.3（master，node1， node2），并成功测试了wordcount的例子。有几个问题有点不明白，希望大家帮忙解答下：
1，我在hdfs里面的input文件夹里面加了3个数据文件，进行wordcount。为什么默认就是按空格区分的，我网上查了下源代码也没明白，如果我想按分号区别该如何操作？
2，这个3个文件的数据，我用hadoop fs -ls / 分别再master，node1，node2中查看是一样的，但是在执行stop-all.sh后，却都无法查看，是不是就是说hdfs是随着集群启动而启用。
3，对数据文件做map操作，这个过程只在master中进行，node1和node2只是对map后的数据开进行reduce。我这样理解对么
4，这三个数据文件只存在在master上么，还是node1和node2中也有备份，关闭集群（stop-all.sh）后，这三个数据文件存在哪里的？

nextuser · 发表于 2017-3-13 17:57:15

1，我在hdfs里面的input文件夹里面加了3个数据文件，进行wordcount。为什么默认就是按空格区分的，我网上查了下源代码也没明白，如果我想按分号区别该如何操作？
是不是理解错了，文件不是默认按空格分区，这是开发者自己定义的。如还有问题可上代码。
2，这个3个文件的数据，我用hadoop fs -ls / 分别再master，node1，node2中查看是一样的，但是在执行stop-all.sh后，却都无法查看，是不是就是说hdfs是随着集群启动而启用。
stop-all.sh集群已经停止工作了，hdfs的文件自然看不到了。就像你的电脑关掉，就不能看磁盘文件了
3，对数据文件做map操作，这个过程只在master中进行，node1和node2只是对map后的数据开进行reduce。我这样理解对么
不对的，map和reduce都有可能运行的。
推荐参考
MapReduce工作原理讲解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6723

从程序角度分析mapreduce原理与代码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7130

4，这三个数据文件只存在在master上么，还是node1和node2中也有备份，关闭集群（stop-all.sh）后，这三个数据文件存在哪里的？
一般副本为3.说备份感觉理解是不对的。也可以副本为1，关闭后，数据文件都是在datanode上。
推荐
hadoop详细了解5个进程的作用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7088

youngwenhao · 发表于 2017-3-13 18:15:39

nextuser 发表于 2017-3-13 17:57
1，我在hdfs里面的input文件夹里面加了3个数据文件，进行wordcount。为什么默认就是按空格区分的，我网上 ...

谢谢你解答我的疑惑！

图文精华

请教关于数据存储的问题？

已有(2)人评论

最佳新人

活跃会员

热心会员

推荐 /2