分享

请教关于数据存储的问题?

我目前在虚拟机上安装了分布式的hadoop2.7.3(master,node1, node2),并成功测试了wordcount的例子。有几个问题有点不明白,希望大家帮忙解答下:
1, 我在hdfs里面的input文件夹里面加了3个数据文件,进行wordcount。为什么默认就是按空格区分的,我网上查了下源代码也没明白,如果我想按 分号区别该如何操作?
2, 这个3个文件的数据,我用hadoop fs -ls / 分别再master,node1,node2中查看是一样的,但是在执行stop-all.sh后,却都无法查看,是不是就是说hdfs是随着集群启动而启用。
3, 对数据文件做map操作,这个过程只在master中进行,node1和node2只是对map后的数据开进行reduce。我这样理解对么
4,这三个数据文件只存在在master上么,还是node1和node2中也有备份,关闭集群(stop-all.sh)后,这三个数据文件存在哪里的?

已有(2)人评论

跳转到指定楼层
nextuser 发表于 2017-3-13 17:57:15
1, 我在hdfs里面的input文件夹里面加了3个数据文件,进行wordcount。为什么默认就是按空格区分的,我网上查了下源代码也没明白,如果我想按 分号区别该如何操作?
是不是理解错了,文件不是默认按空格分区,这是开发者自己定义的。如还有问题可上代码。
2, 这个3个文件的数据,我用hadoop fs -ls / 分别再master,node1,node2中查看是一样的,但是在执行stop-all.sh后,却都无法查看,是不是就是说hdfs是随着集群启动而启用。
stop-all.sh集群已经停止工作了,hdfs的文件自然看不到了。就像你的电脑关掉,就不能看磁盘文件了
3, 对数据文件做map操作,这个过程只在master中进行,node1和node2只是对map后的数据开进行reduce。我这样理解对么
不对的,map和reduce都有可能运行的。
推荐参考
MapReduce工作原理讲解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6723


从程序角度分析mapreduce原理与代码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7130



4,这三个数据文件只存在在master上么,还是node1和node2中也有备份,关闭集群(stop-all.sh)后,这三个数据文件存在哪里的?
一般副本为3.说备份感觉理解是不对的。也可以副本为1,关闭后,数据文件都是在datanode上。
推荐
hadoop详细了解5个进程的作用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7088


回复

使用道具 举报

youngwenhao 发表于 2017-3-13 18:15:39
nextuser 发表于 2017-3-13 17:57
1, 我在hdfs里面的input文件夹里面加了3个数据文件,进行wordcount。为什么默认就是按空格区分的,我网上 ...

谢谢你解答我的疑惑!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条