|
Daemon | Environment Variable |
NameNode | HADOOP_NAMENODE_OPTS |
DataNode | HADOOP_DATANODE_OPTS |
Secondary NameNode | HADOOP_SECONDARYNAMENODE_OPTS |
ResourceManager | YARN_RESOURCEMANAGER_OPTS |
NodeManager | YARN_NODEMANAGER_OPTS |
WebAppProxy | YARN_PROXYSERVER_OPTS |
Map Reduce Job History Server | HADOOP_JOB_HISTORYSERVER_OPTS |
Daemon | Environment Variable |
ResourceManager | YARN_RESOURCEMANAGER_HEAPSIZE |
NodeManager | YARN_NODEMANAGER_HEAPSIZE |
WebAppProxy | YARN_PROXYSERVER_HEAPSIZE |
Map Reduce Job History Server | HADOOP_JOB_HISTORYSERVER_HEAPSIZE |
Parameter | Value | Notes |
fs.defaultFS | NameNode URI | |
io.file.buffer.size | 131072 | 读写序列文件缓存大小 |
Parameter | Value | Notes |
dfs.namenode.name.dir | 本地文件系统存储着命令空间和操作日志 | 如果含有多个目录,是冗余的【多个目录以逗号隔开】 |
dfs.hosts / dfs.hosts.exclude | 列出排除DataNodes. | 如何需要使用这一功能来控制datanode的访问 |
dfs.blocksize | 268435456 | 大文件系统HDFS blocksize 256MB |
dfs.namenode.handler.count | 100 | 更多 NameNode server 线程来处理来自datanode的 RPCs请求 |
Parameter | Value | Notes |
dfs.datanode.data.dir | 存储blocks的本地路径列表,用逗号隔开 | 这是一个逗号分隔的目录列表, 数据将被存储在所有被命名的目录中,通常在不同的设备上。 |
Parameter | Value | Notes |
yarn.acl.enable | true / false | 是否启用ACLs,默认为false不启用 |
yarn.admin.acl | Admin ACL | admin.acl设置YARN的集群管理员,. 值为*表示任何人都可以. 仅指定的可以访问 |
yarn.log-aggregation-enable | false | 配置启用或则禁用日志 |
Parameter | Value | Notes |
yarn.resourcemanager.address | ResourceManager host:port 为客户端提交job. | 如果配置host:port , 会覆盖在yarn.resourcemanager.hostname 设置的 hostname |
yarn.resourcemanager.scheduler.address | ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。 | 如果配置host:port , 会覆盖在yarn.resourcemanager.hostname 设置的 hostname |
yarn.resourcemanager.resource-tracker.address | ResourceManager 对NodeManager暴露的地址.。NodeManager通过该地址向RM汇报心跳,领取任务等。 | 如果配置host:port , 会覆盖在yarn.resourcemanager.hostname 设置的 hostname |
yarn.resourcemanager.admin.address | ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等 | 如果配置host:port , 会覆盖在yarn.resourcemanager.hostname 设置的 hostname |
yarn.resourcemanager.webapp.address | ResourceManager web-ui host:port(ResourceManager访问端口) | 如果配置host:port , 会覆盖在yarn.resourcemanager.hostname 设置的 hostname |
yarn.resourcemanager.hostname | ResourceManager 客户端. | host Single hostname that can be set in place of setting all yarn.resourcemanager*address resources. Results in default ports for ResourceManager components. |
yarn.resourcemanager.scheduler.class | ResourceManager 调度类 . | CapacityScheduler (recommended), FairScheduler (also recommended), or FifoScheduler |
yarn.scheduler.minimum-allocation-mb | 单个container可申请的最小内存资源量。比如设置为1024,则运行MapRedce作业时,每个Task最少可申请1024MB内存 | In MBs |
yarn.scheduler.maximum-allocation-mb | 单个container可申请的最大内存资源量。比如设置为3072,则运行MapRedce作业时,每个Task最多可申请3072MB内存。 | In MBs |
yarn.resourcemanager.nodes.include-path /yarn.resourcemanager.nodes.exclude-path | NodeManager黑白名单。 | NodeManager黑白名单。如果发现若干个NodeManager存在问题,比如故障率很高,任务运行失败率高,则可以将之加入黑名单中。注意,这两个配置参数可以动态生效。(调用一个refresh命令即可) 默认值:“” |
Parameter | Value | Notes |
yarn.nodemanager.resource.memory-mb | NodeManager总的可用物理内存。 | 定义了资源总量的nodemanager可用运行containers |
yarn.nodemanager.vmem-pmem-ratio | 每使用1MB物理内存,最多可用的虚拟内存数。 | 每个任务的虚拟内存的使用可能会超过其物理内存的限制,这个比例。通过对nodemanager任务使用的虚拟内存总量可能超过物理内存使用的比率。 |
yarn.nodemanager.local-dirs | 中间结果存放位置 | 这个参数通常会配置多个目录,分摊磁盘IO负载。 |
yarn.nodemanager.log-dirs | 日志存放路径 | 这个参数通常会配置多个目录,分摊磁盘IO负载。 |
yarn.nodemanager.log.retain-seconds | 10800 | NodeManager上日志最多存放时间(不启用日志聚集功能时有效)。 |
yarn.nodemanager.remote-app-log-dir | /logs | 当应用程序运行结束后,日志被转移到的HDFS目录(启用日志聚集功能时有效)。 |
yarn.nodemanager.remote-app-log-dir-suffix | logs | 远程日志目录子目录名称(启用日志聚集功能时有效)。 |
yarn.nodemanager.aux-services | mapreduce_shuffle | NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序. |
Parameter | Value | Notes |
yarn.log-aggregation.retain-seconds | -1 | 参数解释:在HDFS上聚集的日志最多保存多长时间。 默认值:-1 |
yarn.log-aggregation.retain-check-interval-seconds | -1 | 参数解释:多长时间检查一次日志,并将满足条件的删除,如果是0或者负数,则为上一个值的1/10。 默认值:-1 |
Parameter | Value | Notes |
mapreduce.framework.name | yarn | 执行框架设置为Hadoop YARN. |
mapreduce.map.memory.mb | 1536 | maps资源限制 |
mapreduce.map.java.opts | -Xmx1024M | maps的child jvms heap-size |
mapreduce.reduce.memory.mb | 3072 | reduces资源限制 |
mapreduce.reduce.java.opts | -Xmx2560M | reduces的child jvms heap-size |
mapreduce.task.io.sort.mb | 512 | 任务内部排序缓冲区大小 |
mapreduce.task.io.sort.factor | 100 | 排序文件的时候一次同时最多可并流的个数,这里设置100。 |
mapreduce.reduce.shuffle.parallelcopies | 50 | reuduce shuffle阶段并行传输数据的数量。 |
Parameter | Value | Notes |
mapreduce.jobhistory.address | MapReduce JobHistory Server地址【host:port】 | 默认端口号 10020. |
mapreduce.jobhistory.webapp.address | MapReduce JobHistory Server Web UI地址【 host:port】 | 默认端口号 19888. |
mapreduce.jobhistory.intermediate-done-dir | /mr-history/tmp | MapReduce作业产生的日志存放位置。 |
mapreduce.jobhistory.done-dir | /mr-history/done | MR JobHistory Server管理的日志的存放位置。 |