怎么评价Google发布的Cloud Dataflow云数据分析工具？

问题导读
1、和map-reduce模型相比，Dataflow有哪些优点？
2、Dataflow如何与Spark整合？
3、Dataflow未来发展方向是什么？

相比原生的map-reduce模型，Dataflow有几个优点：
可以构建复杂的pipeline
不需手工配置和管理MapReduce集群。自动进行代码优化和资源调度，使得开发者的主要精力可以放在业务逻辑本身
支持从Batch到Streaming模式的无缝切换
可以在developer console中了解流水线中每个环节执行的情况
有Google cloud platform这个完整的生态系统

比较
1、Cascading/Twitter Scalding：
1) 传统Map-reduce只能处理单一的流，而Dataflow可以构建整个pipeline，自动优化和调度，Dataflow乍一听感觉非常像Hadoop上的Cascading(Java)/Scalding(Scala)。
2) 它们的编程模型很像，Dataflow也可以很方便做本地测试，可以传一个模拟集合，在上面去迭代计算结果，这一点是传统Map-reduce望尘莫及的。

2、Twitter Summingbird：
而将批处理和流处理无缝连接的思想又听起来很像把Scalding和Strom无缝连接起来的twitter summingbird(Scala).

3、Spark：
1) Spark也有可以构建复杂的pipeline做一代码优化和任务调度的好处，但目前还需要程序员来配置资源分配。
2) Spark在设计分布式数据集API时，模拟了Scala集合的操作API，使得额外的语法学习成本比Dataflow要低。
3) 不过Dataflow似乎并没有提内存计算的事儿，而这一点可以说是Spark最本质的特征。不过它支持将Spark作为Open Source工具，连入Cloud框架作为补充。
4) 分布式计算中除了Batch和Streaming，Graph也是一个重要的问题，Spark在这方面有GraphX，Dataflow在未来也会将处理Graph处理这块整合进去。

图文精华

怎么评价Google发布的Cloud Dataflow云数据分析工具？

最佳新人

活跃会员

突出贡献

论坛元老

推荐 /2