分享

百度使用spark工程实践【马小龙】

nettman 发表于 2015-4-11 00:58:38 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 14721
本帖最后由 nettman 于 2015-4-11 01:00 编辑
问题导读
spark在在百度遇的问题,相信在一些企业同样也会遇到,比如如何与自己公司的产品向结合,公司使用spark来做什么。
那么

1.百度是如何使用spark的?
2.百度使用spark遇到了什么问题?
3.百度使用spark带来了什么效果?
4.马小龙认为spark的适用场景是什么?





CSDN:首先请介绍下您自己,以及您在Spark 技术方面所做的工作。
马小龙:我叫马小龙,目前在百度基础架构部做大数据处理平台,我主要关注Spark在公有云环境下的使用、优化。



CSDN:您所在的企业是如何使用Spark 技术的?带来了哪些好处?
马小龙:我们主要结合业务需求来对Spark进行优化,带来的好处是作业的处理速度有明显提升。



CSDN:您认为Spark 技术最适用于哪些应用场景?
马小龙:我个人认为Spark比较适合有迭代需求的大规模作业,比如机器学习等领域。

CSDN:企业在应用Spark 技术时,需要做哪些改变吗?企业如果想快速应用Spark 应该如何去做?
马小龙:Spark和现有的Hadoop生态整合得很好,所以数据方面没有迁移成本,但是业务算法需要重新实现,因此建议先评估现有的业务是否适合放在Spark上,然后再做迁移。企业如果想快速应用Spark,可以选择BMR,BMR提供了Spark镜像,可快速按需创建Spark集群:)



CSDN:您所在的企业在应用Spark 技术时遇到了哪些问题?是如何解决的?
马小龙: 主要是需要和企业现有的生态打通,需要做一些适配工作。



CSDN:作为当前流行的大数据处理技术,您认为Spark 还有哪些方面需要改进?
马小龙: Spark目前的发展势头很好,可以在稳定性方面逐渐改进。



加微信w3aboutyun,可拉入技术爱好者群

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条