分享

spark-sql与hive的几点疑问

spark-sql在使用mysql存储元数据,创建的表都存储在hdfs的情况下,是否可以不安装hive? 我现在hive,spark都装了,每次启动spark-sql,都要先启动hive的metastore,spark自己没有metastore服务么?如果必须这样,感觉和hive耦合度太高了,装spark基本上必须要装hive了,而且spark内置的hive版本很低。
另外,spark thrift服务应该也是需要先启动metastore,但是hive的thrift服务(hiveserver)却不用(启动时顺带启动了本地metastore?),很困惑啊。
用了spark,我本来是想完全弃用hive的,难道做不到?

已有(5)人评论

跳转到指定楼层
easthome001 发表于 2017-11-29 22:04:58
shark也就是spark的前身,应该是依赖hive的。后面版本就改进了。
spark是否用到了hive的数据。一般来讲新版本的spark是不需要hive的,spark可以单独存在。与其它组件可以整合。
楼主具体说下spark的版本及相关内容,spark和hive应该没有必然的关系。

回复

使用道具 举报

czs208112 发表于 2017-11-30 10:07:10
easthome001 发表于 2017-11-29 22:04
shark也就是spark的前身,应该是依赖hive的。后面版本就改进了。
spark是否用到了hive的数据。一般来讲新 ...

感谢回复,经过查阅资料和实践,我的疑问解决了。主要原因还是我对hive的配置不够了解,只顾跟着网上教程配置的结果。
hive-site.xml 内容的配置,一部分是针对hive服务端的,一部分是针对客户端的,

我的环境spark2.2.0, hive2.1.1, 开始的spark hive-site.xml配置如下,
[mw_shl_code=bash,true]
<configuration><property>
<name>hive.metastore.uris</name>
<value>thrift://hiveServerhost:9083</value>
</property>
</configuration>
[/mw_shl_code]

这其实只是客户端的配置,metastore服务需要先启动, 显然只能从hive启动metastore了(hive是服务端的配置),所以就显得spark依赖了hive,
我的hive端配置:
[mw_shl_code=bash,true]property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://Goblin01:3306/metastore?createDatabaseIfNotExist=true</value>
      <description>the URL of the MySQL database</description>
    </property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
</property>[/mw_shl_code]

用服务端配置替换了我的spark原来配置后,spark-shell,spark-sql顺利启动,当然,中间有一些小问题要解决。
上面相关配置是从网上复制的,只为说明问题,我的实际配置多一些,但是主要的配置上面都体现了。

以上仅代表我自己的理解,有问题请大家指出。

回复

使用道具 举报

ruozedashuju 发表于 2018-4-6 18:46:13
你好,hive是数据仓库,spark是计算引擎两者没有必然的关系,但是在大数据生态圈,都是使用统一的metastore来管理存储元数据的


微信搜索关注 若泽大数据 或者加入qq群:707635769  一起交流学习
回复

使用道具 举报

jinwensc 发表于 2018-5-5 18:06:40
spark知识替换了hive的计算引擎,还是使用hive的元数据服务
回复

使用道具 举报

恋枫缩影 发表于 2018-5-6 11:48:08
spark是一个偏向于计算的框架,存储还得依赖于hdfs。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条