分享

在Ubuntu 14.04 64bit上搭建单机本地节点Spark 1.3.0环境

本帖最后由 nettman 于 2015-3-29 00:35 编辑
问题导读

1.如何修改日志级别?
2.如何进入Python shell及scala shell?
3.安装spark需要哪些准备?







(running Spark in local mode on single computer)

1.准备工作:
(1)安装JVM
(2)安装Scala
(3)安装Python或者IPython

2.官网下载Spark最新版并解压
登陆官网
http://spark.apache.org/downloads.html
选择包类型为"Pre-built for Hadoop 2.4 and later"并下载对应的tarball文件spark-1.3.0-bin-hadoop2.4.tgz



1.png



解压下载的文件spark-1.3.0-bin-hadoop2.4.tgz 到指定目录
  1. cp -f spark-1.3.0-bin-hadoop2.4.tgz  ~/program
复制代码
  1. tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program
复制代码
  1. cd spark-1.3.0-bin-hadoop2.4
复制代码
  1. ls
复制代码


2.png

由上易见, Spark版本是1.3.0, Hadoop版本是2.4

3.利用Spark自带的Python shell
使用PySpark shell, 在Spark解压的源码路径下,运行
bin/pyspark
在提示符下,依次输入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()

3.png

4.png

按Ctrl-D退出shell环境

4.修改打印日志的级别
经过上面的运行,发现shell环境中打印的日志过多, 为此我需要调整以下日志的级别.为此,我在
conf目录下面新建一个文件log4j.properties,它是log4j.properties.template的副本,将其中
下面的行
log4j.rootCategory=INFO, console
改为
log4j.rootCategory=WARN, console

5.png

然后重新打开shell,发现调试信息少了很多

5.使用IPython或者IPython Notebook
在命令行, 我们可以使用下面的命令来开启IPython
IPYTHON=1 ./bin/pyspark

6.png

使用下面的命令来开启IPython Notebook
IPYTHON_OPTS="notebook" ./bin/pyspark

7.png

这会在默认浏览器中打开如下页面

8.png

点击上面的"New Notebook"打开一个新的页面标签, 在其中输入如下命令行,并按播放按钮来执行结果

9.png

按Ctrl-D退出shell环境

6.使用Scala shell测试line count小程序
打开Scala版本的shell,运行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()

10.png

按Ctrl-D退出shell环境


7.测试Spark性能
进入到Spark的conf目录下面, 根据当前配置环境, 复制并修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下内容

11.png

启动主服务器节点
sbin/start-master.sh
启动从服务器节点
sbin/start-slaves.sh spark://127.0.0.1:7077
关闭分别使用
sbin/stop-master.sh
sbin/stop-slaves.sh

12.png

浏览master UI
http://127.0.0.1:8080/

13.png

http://127.0.0.1:8081/

14.png

运行样例
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077

未解决的问题:
在运行样例时,发现配置spark ip为127.0.0.1有错误, 最好是运行在公网上的ip

加微信w3aboutyun,可拉入技术爱好者群

已有(1)人评论

跳转到指定楼层
ainubis 发表于 2015-3-29 23:50:50
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条