Cloudera：除下Impala支撑部分，一切都将迁移至Spark

本帖最后由 xioaxu790 于 2014-7-20 18:34 编辑
问题导读
1、SQL on Hadoop的未来是什么？
2、Spark和Impala的发展怎样，代替、同存？

摘要：
近日，Spark汇聚了所有人的目光，就连有着自己流式计算框架的Cloudera都宣布了对它的拥抱。但Cloudera同时称，Impala将会是交互式SQL on Hadoop的未来，该公司并不会用Spark代替Impala。

前段时间，Cloudera对比了Spark与Hadoop，取代MapReduce，宣布该公司将加大Spark的投入。实际上，Cloudera已经开始了向Spark的迁移，其中包括了所有Hive SQL-on-Hadoop的部分。同时，Cloudera称并不会使用Spark替换Impala，他们坚信Impala将是交互式SQL on Hadoop查询的未来，处理Hive的速度远超现有的所有软件。

这周的大数据排行榜上有很多关于Spark的新闻，同时还有一些猜测。来自Cloudera的Mike Olson说，他们公司正在广泛拥抱Spark——包括运行Hive——但是不存在替换Impala行为。

对于计划将Hive SQL-on-Hadoop引擎设置在Spark上引来的非议，Cloudera的联合创始人兼首席战略官Mike Olson的回应是“并没有什么改变”。也就是说，Cloudera的Impala的产品没有发生任何变动。然而在Hadoop与Spark生态圈中，巨大的变化正在发生。

Olson表示，正如Cloudera所关注的那样，Impala就是交互式SQL on Hadoop查询的未来，Impala速度高于任何Hive相关产品，即使是Hortonworks出品。

Cloudera联合IBM、MapR和Databricks（Spark发布公司）一起致力将Hive设置在Spark上。Hive的功能是企业迫切需要的，但运行在MapReduce上的Hive却并不能满足用户需求。关于这一点，几家公司已经达成了共识。Olson坚持，Hive本质就是一个运行在MapReduce上的批处理架构，虽然它在Spark或Hortonworks驱动的Apache Tez框架上运行的更快，但仍然是一个批处理作业。

他补充说，实际上，Cloudera等公司正致力于将几乎现存的每一个MapReduce负载都转移到Spark上，像Sqoop和Pig等，Spark具有美好的应用前景，大家相信它将会在不远的未来超过MapReduce。

The Spark stack

有人可能会问Shark应用在哪里。Olson承认Databricks将会把Shark推迟到下一次Spark发布会，这次峰会集中精力在一个公司四月份发布的叫做Spark SQL的项目上。

这段时间，Databricks 的CEO Ion Stoica对数据库行业分析师Curt Monash同样提到了继续开发一个被称为BlinkDB的交互引擎的项目，Ion Stoica说： “如果我要重绘Spark栈图，SparkSQL将会取代Shark，而Shark则会介于SparkSQL和BlinkDB层面中间。”

Olson没有提到BlinkDB，但是他说对于Spark SQL的想法他并不感到兴奋。他承认，Databricks是一个有智慧的公司，也可能会用Spark SQL做一项很成功的任务，但是他补充说，将Hive转移到Spark上并不是一个快速的过程，因为SparkSQL仍是一个进展中的作品。

“我希望看到那些家伙能将他们的努力放在其他事情上”，他说“……我认为Spark框架中的Hive将会做的相当不错”。

本文分享自：Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark

图文精华

Cloudera：除下Impala支撑部分，一切都将迁移至Spark

最佳新人

活跃会员

突出贡献

论坛元老

推荐 /2