About云-梭伦科技»专题 › 圈子 › about云小组 › about云VIP小组群 › about云日志分析项目准备6：Hadoop、Spark集群搭建

about云日志分析项目准备6：Hadoop、Spark集群搭建

查看数: 10667 | 评论数: 8 | 收藏 7

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

Oner

发布时间: 2016-12-22 15:24

正文摘要:

问题导读： 1. 如何配置linux环境？ 2. 如何安装java和scala？ 3. 如何安装和配置hadoop集群？ 4. 如何验证hadoop集群搭建成功？ 5. 如何安装和配置spark集群？ 6. 如何验证spark集群搭建成功？ 7. 可能会遇 ...

pig2 发表于 2017-3-31 18:09:06

本帖最后由 pig2 于 2017-6-26 15:57 编辑

启动集群小记录：
以前执行start-master.sh和都是没有问题的。

后来执行[mw_shl_code=bash,true]start-slaves.sh [/mw_shl_code]
出现下面问题
[codeUsage: ./sbin/start-slave.sh [options] <master>

Master must be a URL of the form spark://hostname:port

Options:
  -c CORES, --cores CORES  Number of cores to use
  -m MEM, --memory MEM    Amount of memory to use (e.g. 1000M, 2G)
  -d DIR, --work-dir DIR Directory to run apps in (default: SPARK_HOME/work)
  -i HOST, --ip IP       Hostname to listen on (deprecated, please use --host or -h)
  -h HOST, --host HOST    Hostname to listen on
  -p PORT, --port PORT    Port to listen on (default: random)
  --webui-port PORT       Port for web UI (default: 8081)
  --properties-file FILE Path to a custom Spark properties file.
                        Default is conf/spark-defaults.conf.[/code]
以为是环境变量出现问题。
解决办法：
1.原来是因为有的机器worker进程没有关闭掉导致的。2.可以使用start-slave.sh spark://Master:7077

pig2 发表于 2017-3-31 18:04:11

本帖最后由 pig2 于 2017-3-31 18:09 编辑

sbin目录下的脚本文件:
[codeslaves.sh             在所有定义在${SPARK_CONF_DIR}/slaves的机器上执行一个shell命令
spark-config.sh       被其他所有的spark脚本所包含，里面有一些spark的目录结构信息
spark-daemon.sh                      将一条spark命令变成一个守护进程
spark-daemons.sh       在所有定义在${SPARK_CONF_DIR}/slaves的机器上执行一个spark命令
spark-executor       运行org.apache.spark.executor.MesosExecutorBackend，具体作用暂时没关注
start-all.sh          启动master进程，以及所有定义在${SPARK_CONF_DIR}/slaves的机器上启动Worker进程
start-history-server.sh 启动历史记录进程
start-master.sh       启动spark master进程
start-slave.sh       启动某机器上spark slave进程
start-slaves.sh       在所有定义在${SPARK_CONF_DIR}/slaves的机器上启动Worker进程
stop-all.sh          在所有定义在${SPARK_CONF_DIR}/slaves的机器上停止Worker进程
stop-history-server.sh  停止历史记录进程
stop-master.sh       停止spark master进程
stop-slaves.sh       停止某机器上spark slave进程[/code]

pig2 发表于 2017-1-22 20:34:05

hadoop集群验证：
hadoop集群验证方式很多种，这里直接上传一个windows7文件。下面内容，保存未vim.txt文件

移动光标
上:k nk:向上移动n行 9999k或gg可以移到第一行 G移到最后一行
下:j nj:向下移动n行
左:h nh:向左移动n列
右:l nl:向右移动n列

w：光标以单词向前移动 nw：光标向前移动n个单词光标到单词的第一个字母上
b：与w相反
e: 光标以单词向前移动 ne：光标向前移动n个单词光标到单词的最后一个字母上
ge:与e相反

$:移动光标到行尾 n$:移动到第n行的行尾
0（Num）：移动光标到行首
^:移动光标到行首第一个非空字符上去

f:移动光标到当前行的字符a上，nf移动光标到当前行的第n个a字符上
F:相反

%:移动到与制匹配的括号上去（），{}，[]，<>等。

nG:移动到第n行上 G:到最后一行

CTRL＋G 得到当前光标在文件中的位置

向前翻页：CTRL+F
向下移动半屏：CTRL＋G

向后翻页：CTRL+B

到文件开头 gg
到文件结尾 shift+g

#############################

快速移动光标至行首和行尾

需要按行快速移动光标时，可以使用键盘上的编辑键Home，快速将光标移动至当前行的行首。除此之外，也可以在命令模式中使用快捷键"^"（即Shift+6）或0（数字0）。

如果要快速移动光标至当前行的行尾，可以使用编辑键End。也可以在命令模式中使用快捷键"$"（Shift+4）。与快捷键"^"和0不同，快捷键"$"前可以加上数字表示移动的行数。例如使用"1$"表示当前行的行尾，"2$"表示当前行的下一行的行尾。

vim查询使用/

保存后，复制到Linux，然后通过命令

hdfs dfs -put vim.txt /

复制代码

乱码，

主要是window下是gbk，Linux下是utf8.所以需要转换下

sudo icnov -f gbk utf8 vim.txt > vim.txt.utf8

复制代码

转换后，上传即可看到

同时证明集群安装配置成功

pig2 发表于 2017-1-19 13:30:58

本帖最后由 pig2 于 2017-1-25 20:09 编辑

远程复制纠正：
下面方式严格来讲，不正确的

scp -r ~/.bashrc aboutyun@slave1:~/

复制代码

需去掉-r

scp ~/.bashrc aboutyun@slave1:~/

复制代码

并且特别注意远程复制之后需要生效环境变量。

source ~/.bashrc

复制代码

涉及到hadoop集群及spark集群的配置

pig2 发表于 2017-1-18 19:06:16

本帖最后由 pig2 于 2017-1-18 19:08 编辑

pig2 发表于 2017-1-10 17:32
解压后注意更改权限
同样hadoop，spark也是

远程复制：
在/data目录的软件。配置完毕，远程复制，如果没有授权的情况下，只能复制到/home/aboutyun目录下。
对/data授权

sudo chmod -R 777 /data

复制代码

即可实现远程复制,如复制hadoop

scp -r /data/hadoop aboutyun@slave1:/data

复制代码

如果无授权，则出现下面情况

scp: /data/hadoop: Permission denied

复制代码

pig2 发表于 2017-1-10 17:32:22

本帖最后由 pig2 于 2017-1-11 16:21 编辑

tar -zxvf ~/jar/spark-1.6.3-bin-hadoop2.6.tgz -C /data

复制代码

解压后注意更改权限
同样hadoop，spark也是

tar -zxvf ~/jar/hadoop-2.6.5.tar.gz -C /data

复制代码

tar -zxvf ~/jar/spark-1.6.3-bin-hadoop2.6.tgz -C /data

复制代码

pig2 发表于 2017-1-5 19:59:27

上述安装软件包下载地址

链接：http://pan.baidu.com/s/1eRJctZ8 密码：u8jh

安装包下载.jpg

pig2 发表于 2017-1-4 18:37:13

ntp设置补充，master同步网络服务器，slave1和slave2可同步master的时间

ntp设置中：master同步网络服务器
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst

slave1和slave2同步master的时间
注释上面信息采用，在配置文件中/etc/ntp.conf中注释上面信息
直接添加

server master

复制代码

ssh-copy-id -i ~/.ssh/id_rsa.pub aboutyun@slave1

的含义是：
将master的公钥远程复制到slave1的authorized_keys文件中:

图文精华

about云日志分析项目准备6：Hadoop、Spark集群搭建

正文摘要:

回复

推荐 /2