分享

Cloudera:除下Impala支撑部分,一切都将迁移至Spark

本帖最后由 xioaxu790 于 2014-7-20 18:34 编辑
问题导读
1、SQL on Hadoop的未来是什么?
2、Spark和Impala的发展怎样,代替、同存?



摘要:
近日,Spark汇聚了所有人的目光,就连有着自己流式计算框架的Cloudera都宣布了对它的拥抱。但Cloudera同时称,Impala将会是交互式SQL on Hadoop的未来,该公司并不会用Spark代替Impala。

前段时间,Cloudera对比了Spark与Hadoop,取代MapReduce,宣布该公司将加大Spark的投入。实际上,Cloudera已经开始了向Spark的迁移,其中包括了所有Hive SQL-on-Hadoop的部分。同时,Cloudera称并不会使用Spark替换Impala,他们坚信Impala将是交互式SQL on Hadoop查询的未来,处理Hive的速度远超现有的所有软件。

这周的大数据排行榜上有很多关于Spark的新闻,同时还有一些猜测。来自Cloudera的Mike Olson说,他们公司正在广泛拥抱Spark——包括运行Hive——但是不存在替换Impala行为。

对于计划将Hive SQL-on-Hadoop引擎设置在Spark上引来的非议,Cloudera的联合创始人兼首席战略官Mike Olson的回应是“并没有什么改变”。也就是说,Cloudera的Impala的产品没有发生任何变动。然而在Hadoop与Spark生态圈中,巨大的变化正在发生。

Olson表示,正如Cloudera所关注的那样,Impala就是交互式SQL on Hadoop查询的未来,Impala速度高于任何Hive相关产品,即使是Hortonworks出品。

Cloudera联合IBM、MapR和Databricks(Spark发布公司)一起致力将Hive设置在Spark上。Hive的功能是企业迫切需要的,但运行在MapReduce上的Hive却并不能满足用户需求。关于这一点,几家公司已经达成了共识。Olson坚持,Hive本质就是一个运行在MapReduce上的批处理架构,虽然它在Spark或Hortonworks驱动的Apache Tez框架上运行的更快,但仍然是一个批处理作业。

他补充说,实际上,Cloudera等公司正致力于将几乎现存的每一个MapReduce负载都转移到Spark上,像Sqoop和Pig等,Spark具有美好的应用前景,大家相信它将会在不远的未来超过MapReduce。

1.jpg

           The  Spark stack

有人可能会问Shark应用在哪里。Olson承认Databricks将会把Shark推迟到下一次Spark发布会,这次峰会集中精力在一个公司四月份发布的叫做Spark SQL的项目上。

这段时间,Databricks 的CEO Ion Stoica对数据库行业分析师Curt Monash同样提到了继续开发一个被称为BlinkDB的交互引擎的项目,Ion Stoica说: “如果我要重绘Spark栈图,SparkSQL将会取代Shark,而Shark则会介于SparkSQL和BlinkDB层面中间。”

Olson没有提到BlinkDB,但是他说对于Spark SQL的想法他并不感到兴奋。他承认,Databricks是一个有智慧的公司,也可能会用Spark SQL做一项很成功的任务,但是他补充说,将Hive转移到Spark上并不是一个快速的过程,因为SparkSQL仍是一个进展中的作品。

“我希望看到那些家伙能将他们的努力放在其他事情上”,他说“……我认为Spark框架中的Hive将会做的相当不错”。




本文分享自:Cloudera: Impala’s it for interactive SQL on Hadoop; everything else will move to Spark


没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条