Hadoop Windows下伪分布式的安装

安装Cygwin：
1.Devel：openssl-devel；
2.Editors：vim；
3.Net：openssh；
4.其他默认。

Hadoop Windows下伪分布式的安装笔记
安装SSHD
1.ssh-host-config
2.yes
3.yes
4.yes
5.
启动SSHD
net start sshd

Hadoop Windows下伪分布式的安装笔记
安装ssh
1.ssh-keygen
2.
3.
4.
5.cat id_rsa.pub >> authorized_keys
6.ssh localhost
7.ssh localhost
8.jps

Hadoop Windows下伪分布式的安装笔记
安装Hadoop
1.tar zxvf hadoop-1.0.1.tar.gz
2.配置hadoop-env.sh
（1）.vi hadoop-env.sh
（2）.a
（3）.加入export JAVA_HOME=/cygdrive/c/JDK
（4）.Esc
（5）.:wq
（6）.sh hadoop-env.sh
3.配置conf/core-site.xml
（1）.vi core-site.xml
（2）.a
（3）.加入fs.default.namehdfs://localhost:9000
（4）.Esc
（5）.:wq
4.配置conf/hdfs-site.xml
（1）.vi hdfs-site.xml
（2）.a
（3）.加入dfs.replication1
（4）.Esc
（5）.:wq
5.配置conf/mapred-site.xml
（1）.vi mapred-site.xml
（2）.a
（3）.加入mapred.job.trackerlocalhost:9001
（4）.Esc
（5）.:wq

Hadoop Windows下伪分布式的安装笔记
1.格式化文件系统，hadoop namenode -format
2.启动hadoop
（1）.启动关闭所有任务，start-all.sh/stop-all.sh
（2）.启动关闭HDFS，start-dfs.sh/stop-dfs.sh
（3）.启动关闭MapReduce，start-mapred.sh/stop-mapred.sh
3.用jps命令查看进程，确保有NameNode、DataNode、JobTracker、TaskTracker

Hadoop Shell 笔记
bin
1. hadoop，是shell脚本
2. hadoop-config.sh，给hadoop的一些变量赋值
3. hadoop-daemon.sh，hadoop的单节点启动
4. hadoop-daemons.sh，会调用slaves.sh去，启动或停止所有slave节点的某个服务
5. start-all.sh，启动所有节点的所有服务
6. start-balancer.sh，负载均衡，启动后不知道什么时候运行完，很慢且占带宽，可以在配置文件里配置所占带宽，因为是来回拷数据，所以对集群的压力比较大，一般都是在没有任务的时候执行它
7. start-dfs.sh，启动所有节点的dfs
8. start-jobhistoryserver.sh，用来跟踪job，主要包括运行多久、产生多少数据文件等
9. start-mapred.sh，启动所有节点的MapReduce
10. stop-all.sh，停止所有节点的所有服务
11. stop-balancer.sh，停止负载均衡
12. stop-dfs.sh，停止所有节点的dfs
13. stop-jobhistoryserver.sh，停止跟踪job
14. stop-mapred.sh，停止所有节点的MapReduce

shell
1. namenode -format，格式化dfs文件系统
2. secondarynamenode，运行一个dfs备用的namenode节点
3. namenode，运行一个dfs的namenode节点
4. datanode，运行一个dfs的datanode节点
5. dfsadmin，运行一个dfs的管理员客户端
6. mradmin，运行一个MapReduce的管理员客户端
7. fsck，运行一个dfs文件系统的检查工具
8. fs，运行一个普通文件系统的用户客户端
9. balancer，运行一个负载均衡工具
10. fetchdt，从namenode节点中获取标识token
11. jobtracker，运行一个MapReduce的jobtracker节点
12. pipes，运行一个管道作业，基于C++的
13. tasktracker，运行一个MapReduce的tasktracker节点
14. historyserver，运行一个独立的守护进程——工作历史服务器
15. job，操作MapReduce中的作业
16. queue，获取有关作业队列的信息
17. version，打印版本信息
18. jar ，运行一个jar文件
19. distcp ，递归地复制文件或目录
20. archive -archiveName NAME -p * ，创建一个hadoop归档文件，即打包hadoop文件
21. classpath，打印需要得到Hadoop jar和所需类库的classpath
22. daemonlog，获得或设置每个守护进程的日志级别
23. CLASSNAME，运行指定的类名称

图文精华

Hadoop Windows下伪分布式的安装

推荐 /2