新手求指导。使用hadoop-eclipse-plugin执行MR程序和使用hadoop jar命令有区别吗

查看数: 22968 | 评论数: 12 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2015-7-10 16:58

正文摘要:

在windows上用eclipse写那个词频统计的demo,100M的文本文件,执行时间35秒左右。 导出jar包,直接放到linux上,用hadoop jar 命令执行,接近60秒。 请问可能的原因

回复

cwl12315 发表于 2015-7-10 17:46:48
yuwenge 发表于 2015-7-10 17:37
不清楚了,按理来说应该是源码。难道远程执行也暂用本地资源了,节省了远程资源?

这个我也不清楚呢,谢谢热心帮助
cwl12315 发表于 2015-7-10 17:45:46
Alkaloid0515 发表于 2015-7-10 17:38
运行是不是引用的本地的文件,注意本地版本和远程版本一致。本地库当然也是。最好在Linux下。window下有 ...

嗯,这点很头疼呢。windows下我尝试设置hadoop-lzo-0.20-SNAPSHOT.jar的本地库地址,试了把linux下的本地库拷贝过来,也试了在windows下重新编译得到dll文件,但是运行时都警告该platform无法加载native library,然后会有NativeIO.access0错误。
Alkaloid0515 发表于 2015-7-10 17:38:54
cwl12315 发表于 2015-7-10 17:31
要不这个问题先搁置。
我请教一下另一个关于lzo压缩的问题。
按照网上的一些博客文章,做了Lzo本地库和 ...

运行是不是引用的本地的文件,注意本地版本和远程版本一致。本地库当然也是。最好在Linux下。window下有很多的问题
yuwenge 发表于 2015-7-10 17:37:03
cwl12315 发表于 2015-7-10 17:33
亲,您好像看错了,我是源码执行时间更短。
我是用Stopwatch统计job.waitForCompletion(true)的执行时间 ...

不清楚了,按理来说应该是源码。难道远程执行也暂用本地资源了,节省了远程资源?
cwl12315 发表于 2015-7-10 17:33:43
yuwenge 发表于 2015-7-10 17:31
源码是需要编译才能执行,而且是远程执行
jar不需要,并且jar是直接在集群上运行。
这个时间是合理的

亲,您好像看错了,我是源码执行时间更短。
我是用Stopwatch统计job.waitForCompletion(true)的执行时间
cwl12315 发表于 2015-7-10 17:31:45
yuwenge 发表于 2015-7-10 17:16
hadoop-eclipse-plugin连接的是hdfs,跟yarn没有太大关系。
楼主可以运行jar几次,肯定每次运行也不同。 ...

要不这个问题先搁置。
我请教一下另一个关于lzo压缩的问题。
按照网上的一些博客文章,做了Lzo本地库和hadoop-Lzo的配置。
jar包可以在linux上执行,结果正确。
但是在windows上用eclipse执行,会报无法加载hadoop-lzo本地库的错误。
是不是因为windows上运行,java程序获取的java.library.path是windows的环境变量所致?
谢谢
yuwenge 发表于 2015-7-10 17:31:36
cwl12315 发表于 2015-7-10 17:25
您好。我上传了一张SecureCrt执行的截图,是map的处理进度。虽然如您所说,资源不同使得每次执行所需时间 ...

源码是需要编译才能执行,而且是远程执行
jar不需要,并且jar是直接在集群上运行。
这个时间是合理的

cwl12315 发表于 2015-7-10 17:25:07
yuwenge 发表于 2015-7-10 17:16
hadoop-eclipse-plugin连接的是hdfs,跟yarn没有太大关系。
楼主可以运行jar几次,肯定每次运行也不同。 ...

您好。我上传了一张SecureCrt执行的截图,是map的处理进度。虽然如您所说,资源不同使得每次执行所需时间不同,但这个时间应当是一种小波动状态才对。
我是运行了好多次的,基本上在eclipse上执行,时间35±5s左右
jar包运行,时间65±5s左右。
yuwenge 发表于 2015-7-10 17:16:55
cwl12315 发表于 2015-7-10 17:13
但是事实上我用jar包运行,执行时间变长好多,map的进度走的很慢。搞不懂

hadoop-eclipse-plugin连接的是hdfs,跟yarn没有太大关系。
楼主可以运行jar几次,肯定每次运行也不同。
这个跟当前的资源有关系
关闭

推荐上一条 /2 下一条