分享

cloudera如何在spark-shell命令行执行spark hql

howtodown 发表于 2015-3-18 12:09:37 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 6 130093

问题导读
1.cloudera manager装好的spark,直接执行spark-shell进入命令行后不执行,该如何解决?
2.执行spark-shell从下面步骤,能否得出 原理?






前面介绍如何编译包含hive的spark-assembly.jar
cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:
  1. val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)  
复制代码

你会发现没法执行通过,因为cm装的原生的spark是不支持spark hql的,我们需要手动进行一些调整:
第一步,将编译好的包含hive的JAR包上传到hdfs上配置的默认的spark的sharelib目录:/user/spark/share/lib

20150317183829047.png
第二步:在你要运行spark-shell脚本的节点上的/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目录下面,下载这个jar到这个目录:hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar(具体路径替换成你自己的)。然后这个目录下面原来会有个软链接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar,我们把这个软链接删除掉重新创建一个同名的软链接:ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar,指向我们刚下载下来的那个JAR包,这个JAR包会在启动spark-shell脚本时装载到driver program的classpath中去的,sparkContext也是在driver中创建出来的,所以需要将我们编译的JAR包替换掉原来的spark-assembly.jar包,这样在启动spark-shell的时候,包含hive的spark-assembly就被装载到classpath中去了。

第三步:在/opt/cloudera/parcels/CDH/lib/spark/conf/目录下面创建一个hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目录是默认的spark的配置目录,当然你可以修改默认配置目录的位置。hive-site.xml内容如下:
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!--Autogenerated by Cloudera Manager-->
  3. <configuration>
  4.   <property>
  5.     <name>hive.metastore.local</name>
  6.     <value>false</value>
  7.   </property>
  8.   <property>
  9.     <name>hive.metastore.uris</name>
  10.     <value>thrift://n1:9083</value>
  11.   </property>
  12.   <property>
  13.     <name>hive.metastore.client.socket.timeout</name>
  14.     <value>300</value>
  15.   </property>
  16.   <property>
  17.     <name>hive.metastore.warehouse.dir</name>
  18.     <value>/user/hive/warehouse</value>
  19.   </property>
  20. </configuration>
复制代码

这个应该大家都懂的,总要让spark找到hive的元数据在哪吧,于是就有了上面一些配置。


第四步:修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark-defaults.conf,添加一个属性:spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。这个是让每个executor下载到本地然后装载到自己的classpath下面去的,主要是用在yarn-cluster模式。local模式由于driver和executor是同一个进程所以没关系。

以上完事之后,运行spark-shell,再输入:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

应该就没问题了。我们再执行一个语句验证一下是不是连接的我们指定的hive元数据库:
hiveContext.sql("show tables").take(10)   //取前十个表看看

最后要重点说明一下这里的第二步第三步和第四步,如果是yarn-cluster模式的话,应该替换掉集群所有节点的spark-assembly.jar集群所有节点的spark conf目录都需要添加hive-site.xml,每个节点spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。可以写个shell脚本来替换,不然手动一个一个节点去替换也是蛮累的。



已有(6)人评论

跳转到指定楼层
lixiaoliang7 发表于 2015-3-19 10:14:19
这个很赞,收藏了。
回复

使用道具 举报

撑伞的鱼 发表于 2015-7-1 14:12:19
您好,我现在按照您帖子中的步骤执行下来,在启动spark-shell时出错了,无法往下执行了,网上也没有找到具体解决这个错误的方法,只好向您请教了,还望您能指导一下,非常感谢!附件中是我错误的截图信息,望您能不吝赐教。
错误截图1.png
错误截图2.png
错误截图3.png
错误截图4.png
错误截图5.png
回复

使用道具 举报

einhep 发表于 2016-12-19 09:55:30
撑伞的鱼 发表于 2015-7-1 14:12
**** 作者被禁止或删除 内容自动屏蔽 ****

尝试修改spark-default.conf
具体如下
spark.driver.extraJavaOption -Dhdp.version=current
spark.yarn.am.extraJavaOption -Dhdp.version=current
然后启动spark shell
bin/spark-shell --master yarn-cluent

回复

使用道具 举报

恋枫缩影 发表于 2017-8-16 02:27:46
正好需要这块东西,谢谢楼主!
回复

使用道具 举报

jeff_zang 发表于 2017-8-20 09:05:37
不错,挺好的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条