Spark 在百度开放云 BMR 上的实践常见问题

BMR相关问题

1：BMR 为什么叫 Baidu Map Reduce？

BMR 是面向企业和开发者的大数据处理服务，不仅包含完全开源的 Hadoop 软件栈，也包括完全开源的 Spark 软件栈。

2：BMR 中“使用时创建，空闲时销毁”是什么意思？这样做有什么好处？

BMR 底层依赖百度云服务器服务，在用户提交作业时申请云服务器创建HADOOP/SPARK 集群，运行用户提交的作业。当作业运行完，集群空闲时，BMR 自动销毁集群。

这样做主要的好处是弹性计算。因为计算资源是按时间计费，计算资源在需要时才申请，空闲时释放。避免计算资源浪费，降低用户的使用成本。

BMR 也提供常驻模式的集群，除非用户手动释放，否则一直运行。

Shuffle相关技术问题

1. 新Shuffle是否会增加网络IO？

新Shuffle的确会增加一些网络IO，但是百度内部集群已经逐渐过渡到万兆环境，集群内的网络IO不是问题。

2. 新Shuffle为什么只有Indy类别成绩，会参加Daytona类别的比赛吗？

参加Benchmark比赛时由于新Shuffle还处在起步阶段，存在一些通用性和稳定性问题，一些优化工作也还没有完成，预期很快会在要求更为严格的Daytona类别的比赛中取得理想的成绩。

3. 新Shuffle的稳定性如何？

现在新Shuffle已经经过百度内部试运行，上线了多个集群，稳定性问题已经得到验证。

4. 新Shuffle是否考虑开源的问题？

考虑到百度使用C/C++的工程师很多，目前新Shuffle采用C++开发；未来，我们会实现一套Java版本的新Shuffle来开源。

Tachyon相关问题

1．是否可以把Tachyon与新Shuffle结合以达到in-memory shuffle的效果？

确实，这也是我们研究方向之一。虽然内存计算逐渐成为趋势，但也仅仅是“更充分的利用内存”，考虑到成本等因素，在短时间内内存不可能完全替代磁盘。

当计算的数据量大到整集群内存都无法容纳时，还是需要写磁盘，新Shuffle的优势还是能够得以体现。

新Shuffle后续也的确有与分布式内存文件系统对接的计划，但不管是磁盘还是内存，在基于同样介质的前提下，新Shuffle比原Shuffle的实现都更高效。

2．Spark也可以分享内存，为什么还要Tachyon？

Tachyon把内存存储的功能从SPARK中分离出来，让SPARK更专注于计算本身，减少GC，让计算更加流畅。

ainubis · 发表于 2015-4-1 22:00:29

图文精华