分享

[CDH4.5] 如何备份hdfs name hbase 请教下

本帖最后由 hadoopmaster 于 2016-12-1 15:31 编辑

问题 :            如何备份hdfs 、hbase 请教下

    希望可以积累下,合理的去保障集群的正常运行。
   我想问下如何去对cdh4.5进行备份那,如果2个namenode都出问题了,
    我是不是可以恢复最完整的namenode去保证这个的datanode正常运行那。

已有(6)人评论

跳转到指定楼层
langke93 发表于 2016-12-2 09:01:05
hadoopmaster 发表于 2016-12-2 08:09
我的是cdh4.5现在已经挂了一个。

首先可以配置HA。如果HA不能满足,那就在弄个双机热备

推荐
hadoop双机热备方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=5686


更多:
Hadoop_HDFS系统双机热备方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=13237


Hadoop 双机热备-AvatarNode部署

http://www.aboutyun.com/forum.php?mod=viewthread&tid=7764



回复

使用道具 举报

yaojiank 发表于 2016-12-1 15:41:37

官网资料这方面挺多的:

备份和灾难恢复概述
Cloudera Manager 提供一个集成式的易用管理解决方案,以用于在 Hadoop 平台上启用数据保护。Cloudera Manager 提供丰富全面的功能,旨在为灾难恢复情况复制 HDFS 中存储的数据和通过 Hive 在数据中心访问的数据。重要数据存储在 HDFS 中时,Cloudera Manager 提供必需的功能已确保数据始终可用,即便在数据中心完全关闭时也是如此。
Cloudera Manager 还允许计划、保存和(如果需要)恢复 HDFS 目录和 HBase 表的快照。
Cloudera Manager 提供完全集成于 Cloudera Manager Admin Console 中的关键功能:
  • 选择 - 选择对您的业务运营至关重要的关键数据集。
  • 计划 - 为数据复制和/或快照创建相应的计划 – 根据您的业务需求尽可能频繁地触发复制和快照。
  • 监控 - 通过中央控制台跟踪快照和复制作业的进度,并轻松地识别问题或无法传输的文件。
  • 警报 - 快照或复制作业失败或中止时发出警报,以便可以迅速地诊断问题。

复制功能在 Hive 和 HDFS 中无缝工作 – 复制可在文件或目录(对于 HDFS)和表(对于 Hive)上设置 — 无需手动将 Hive 数据集转换为 HDFS 数据集,或反之亦然。Hive Metastore 信息也将被复制,这意味着当依赖存储在 Hive 中的表定义的应用程序将在副本端及源端正确工作(当表定义更新时)。
构建在 distcp 的硬化版本上 — 复制利用 MapReduce 和 YARN 的可升级性和可用性,使用专用 MapReduce 作业或 YARN 应用程序(仅将已更改文件从每个 Mapper 中区分开来并高效快速地将其传输至副本端)并行化文件复制。
另外,还允许执行“试运行”以检查配置并了解整体操作的成本,然后再复制整个数据集。
端口要求您必须确保集群中的以下端口打开并可访问,以便在源与目标 Cloudera Manager Server 之间及 HDFS、Hive、MapReduce 和 YARN 主机之间进行通信:
  • Cloudera Manager Admin Console 端口:默认为 7180。
  • HDFS NameNode 端口:默认为 8020。
  • HDFS DataNode 端口:默认为 50010。
  • WebHDFS 端口:默认为 50070。

详细:上面是官网资料,也就是说可以采用复制和快照的方式。
快照不过是cdh5中。


复制:


HBase 复制
如果数据已在 HBase 群集中,复制法对于将数据保存到其他 HBase 群集而言十分有用。在 HBase 中,群集复制是使用源群集的预写日志 (WAL) 传播变更,使一个群集的状态与另一群集同步。在列系列粒度启用了复制功能。为列系列启用复制功能之前,先在目标群集中创建要复制的表和所有列系列。

群集复制使用主推送方法。HBase 群集可以是源群集(又称母版或活动群集,这意味着它是新数据的创建者)、目标群集(又称从属或被动群集,这意味着它通过复制方法接收数据),也可以同时承担这两种角色。复制是异步的,复制的目标是实现一致性。

从一个群集向另一群集复制数据时,会使用元数据的一部分 - 群集 ID跟踪 数据的原始来源 它是元数据的一部分进行跟踪。在 CDH 5 中,还跟追踪消耗数据的所有群集。这样可以防止复制环路。

更多内容
http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/cdh_bdr_hbase_replication.html

回复

使用道具 举报

yaojiank 发表于 2016-12-1 15:43:48
本帖最后由 yaojiank 于 2016-12-1 15:45 编辑

HDFS 复制
所需角色: 下载1.jpg 2.jpg
HDFS 复制使您能够根据用户指定的复制计划,将 HDFS 数据从一个 HDFS 服务复制到另一个服务上,使得目标服务上的数据集与源服务上的数据集保持同步。需要通过正在设置复制的 Cloudera Manager Server 来管理目标服务,而源服务则可以由同一服务器或对等 Cloudera Manager Server 进行管理。


配置 HDFS 数据复制
  • 确保群集遵守支持的复制方案
  • 如果源群集是由来自目标群集的不同 Cloudera Manager Server 进行管理,则配置对等关系
  • 执行下列操作之一:
    • 在备份选项卡中,选择复制。
    • 在群集选项卡中,转至 HDFS 服务并选择复制选项卡。
    将显示“复制”页面的“计划”选项卡。
  • 单击计划 HDFS 复制链接。
  • 从由对等 Cloudera Manager Server 管理的 HDFS 服务或您登录了管理控制台的 Cloudera Manager Server 管理的 HDFS 服务选择源 HDFS 服务。
  • 输入要复制(源)的目录(或文件)的路径。
  • 从您登录了管理控制台的 Cloudera Manager Server 管理的 HDFS 服务选择目标 HDFS 服务。
  • 输入应放入目标文件的路径。
  • 选择一个计划。您可以立即运行它,在计划的未来时间运行一次或定期运行。如果选择一次或定期,系统将显示相关字段,允许您设置日期和时间和(如果适用)两次运行之间的时间间隔。
  • 如果要修改作业的参数,请单击更多选项。在此您将可以更改以下参数:
    • MapReduce 服务 - 要使用的 MapReduce 或 YARN 服务。
    • 调度程序池 - 要使用的调度程序池。
    • 运行方式 - 应运行作业的用户。默认值是 hdfs。如果要以其他用户身份运行作业,您可以在此处输入。如果您使用的是 Kerberos,您必须在此处提供用户名,而且该用户名的 ID 必须大于 1000。验证运行作业的用户是否具有主目录 /user/<username>,该目录由 HDSF 中的 username:supergroup 拥有。
    • 日志路径 - 日志的备用路径。
    • 最大 Map 时隙和最大带宽 - Map 时隙的数量限制和每个 mapper 的带宽限制。默认为不受限制。
    • 因发生错误而中止 - 是否在发生错误时中止作业(默认不执行此操作)。这意味着,复制到该点的文件将保留在目标上,但不会复制其他文件。
    • 复制策略 - 应在 mapper 之间静态还是动态(默认为静态)分配文件复制任务。静态复制策略会预先在 mapper 之间静态分配文件复制任务,以便根据文件大小实现统一的分配。动态复制策略会以小型集合的方式将文件复制任务分配给 mapper,当每个 mapper 处理完自己的一组任务后,它会动态拾取和处理下一组未分配的任务。
    • 跳过校验和检查 - 是否跳过校验和检查(默认为执行)。如果选中此复选框,则不会执行校验和验证。
    • 删除策略 - 在源上删除的文件是否也应从目标目录中删除。此策略还确定了对存在于目标位置但与源无关的文件的处理方式。有三个选项:
      • 保留已删除的文件 - 保留目标文件,即使它们在源位置已不再存在(这是默认设置)。
      • 删除到垃圾桶 - 如果启用 HDFS 垃圾桶,文件将被移动到垃圾桶文件夹。
      • 永久删除 - 占用空间最少,但应谨慎使用。
    • 保留 - 是保留位于源文件系统上时的块大小、复制计数和权限,还是使用目标文件系统上配置的设置。默认情况下将保留位于源文件系统上时的设置。  注释: 要保留权限,您必须以超级用户身份运行。您可以使用“运行方式”选项以确保执行此操作。
    • 警报 - 是否为复制工作流中的各种状态更改生成警报。您可以针对故障、启动、成功或在中止复制工作流时发出警报。
  • 单击保存计划。
要指定其他复制任务,请选择创建 > HDFS 复制。
复制任务显示在“所有复制”列表中,附带了有关源和目标位置、最后一个作业的时间戳以及下一个计划作业的相关信息(如果这是重复计划)。计划作业将在任务规格的左侧显示一个日历图标。如果计划运行一次任务,日历图标会在作业运行后消失。
一次仅可发生一个对应某个复制计划的作业;如果在前一作业完成前,启动与同一复制计划关联的另一个作业,则第二个作业会被取消。
在复制任务的操作菜单中,您可以:
  • 测试复制任务,无需实际传输数据(“演习”)
  • 编辑任务配置
  • 运行任务(立即)
  • 删除任务
  • 禁用或启用任务(如果任务设置了重复计划)。当某个任务处于禁用状态时,您将看到“已停止”图标,而不是日历图标,同时作业条目将以灰色显示。




查看复制作业状态
  • 正在进行某个作业时,日历图标会变为转盘,将通过复制规格后的消息来指明复制任务的每个阶段。
  • 如果作业取得成功,则会指明复制的文件数。如果自上一作业开始源位置上的文件没有发生更改,则该文件不会被复制。因此,初始作业后,实际上仅会复制文件的子集,此状态将在成功消息中指明。
  • 如果作业失败,将显示一个 job_failed.png 图标。
  • 要查看有关已完成作业的更多信息,请单击“复制”列表中的任务行。这将显示过去每个作业的子条目。
  • 要查看过往作业的详细信息,请单击该作业的条目。这将打开另一子条目,其中显示:
    • 结果消息
    • 作业的开始时间和结束时间。
    • 该复制作业的命令详细信息的链接。
    • 有关复制数据的详细信息。
  • 查看子条目时,您可以消除子条目,方法是单击父条目的任意位置,或单击子条目区域左上方的返回箭头图标。


更多:http://www.cloudera.com/content/www/zh-CN/documentation/enterprise/5-3-x/topics/cm_bdr_hdfs_replication.html





回复

使用道具 举报

NEOGX 发表于 2016-12-1 15:49:20
如果都挂了,就不行了。如果配置了secondary name可以通过这个恢复。不过一般不会两个都坏掉的
hadoop3.x可以多2个以上namenode。

回复

使用道具 举报

hadoopmaster 发表于 2016-12-2 08:07:04
谢谢你,版本太新了,改动太大,我想就想oracle一样能不能对数据做备份,或者冷备份,万一出问题还可以恢复。
回复

使用道具 举报

hadoopmaster 发表于 2016-12-2 08:09:46
我的是cdh4.5现在已经挂了一个。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条