分享

怎么计算或确定运行一个第三方模型(可以理解为MR)所用到的资源(数据量已确定)

ltl_hit 发表于 2016-7-8 14:36:03 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 6713
各位大神

怎么计算或确定运行一个第三方模型(可以理解为MR)所用到的资源(HDFS数据量假设为1T),这些资源包括(启动多少个MAPPER,REDUCE,DATANODE,在或者CPU,内存),换句话说,一个第三方模型(自己开发的数据逻辑处理模型),放到我的HADOOP集群中读我的数据,但是我给他多少资源才合理,这个怎么计算呢?或者有没有预估的办法

已有(1)人评论

跳转到指定楼层
langke93 发表于 2016-7-8 15:44:21
你有多少资源,就可以利用多少资源。比如:
我们处理1T的数据。
一台电脑,运行mapreduce,可能需要10天
10天电脑,运行mapreduce,可能就需要1天。
所以资源,这个取决于你的需求。

如果楼主想了解集群的配置,运行等情况,可以参考百度和阿里的及如何配置硬件
Hadoop在阿里和百度实际应用场景
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6543


搭建hadoop集群必参考的文章:为Hadoop集群选择合适的硬件配置
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11892




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条