分享

怎么评价Google发布的Cloud Dataflow云数据分析工具?

xioaxu790 2014-10-12 13:59:37 发表于 总结型 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 9208
问题导读
1、和map-reduce模型相比,Dataflow有哪些优点?
2、Dataflow如何与Spark整合?
3、Dataflow未来发展方向是什么?





相比原生的map-reduce模型,Dataflow有几个优点:
可以构建复杂的pipeline
不需手工配置和管理MapReduce集群。自动进行代码优化和资源调度,使得开发者的主要精力可以放在业务逻辑本身
支持从Batch到Streaming模式的无缝切换
可以在developer console中了解流水线中每个环节执行的情况
有Google cloud platform这个完整的生态系统


比较
1、Cascading/Twitter Scalding:
1) 传统Map-reduce只能处理单一的流,而Dataflow可以构建整个pipeline,自动优化和调度,Dataflow乍一听感觉非常像Hadoop上的Cascading(Java)/Scalding(Scala)。
2) 它们的编程模型很像,Dataflow也可以很方便做本地测试,可以传一个模拟集合,在上面去迭代计算结果,这一点是传统Map-reduce望尘莫及的。


2、Twitter Summingbird:
而将批处理和流处理无缝连接的思想又听起来很像把Scalding和Strom无缝连接起来的twitter summingbird(Scala).

3、Spark:
1) Spark也有可以构建复杂的pipeline做一代码优化和任务调度的好处,但目前还需要程序员来配置资源分配。
2) Spark在设计分布式数据集API时,模拟了Scala集合的操作API,使得额外的语法学习成本比Dataflow要低。
3) 不过Dataflow似乎并没有提内存计算的事儿,而这一点可以说是Spark最本质的特征。不过它支持将Spark作为Open Source工具,连入Cloud框架作为补充。
4) 分布式计算中除了Batch和Streaming,Graph也是一个重要的问题,Spark在这方面有GraphX,Dataflow在未来也会将处理Graph处理这块整合进去。

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条