分享

Cloudera Search 快速入门指南

PeersLee 发表于 2016-7-27 15:04:09 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 0 18386
本帖最后由 PeersLee 于 2016-7-27 15:05 编辑
问题导读:
1.前提条件是什么?
2.如何在 Search 中加载数据和为数据编制索引?
3.如何使用使用 Search 查询已加载的数据?




解决方案:

前提条件
在安装 Search 之前,请安装 Cloudera Manager 和一个 CDH 群集。本指南中的方案适合 CDH 5.3.0 和 Cloudera Manager 5.3.0。quickstart.sh 脚本和支持文件随 CDH 附带。使用 Cloudera Manager 和 CDH QuickStart 指南 安装 Cloudera Manager、CDH 和 Solr。
Search 快速启动依赖的主要服务包括:
  • HDFS:存储数据。在所有主机上部署。
  • ZooKeeper:协调 Solr 主机。在一个主机上部署。使用默认端口 2181。示例引用名为 [size=1em]search-zk 的计算机。您可能需要为您的 Zookeeper 指定此名称以完全如本文档所述简化重复使用内容。如果您选择其他名称,则必须相应地调整一些命令。
  • Solr 与 SolrCloud:提供文档编制索引和查询等搜索服务。在两个主机上部署。
  • Hue:包括 Search 应用程序,您可使用它来完成搜索查询。在一个主机上部署 Hue。

如 Cloudera Manager 快速入门指南所述完成安装过程之后,您可以 在 Search 中加载数据和为数据编制索引

在 Search 中加载数据和为数据编制索引

执行在以下位置的子目录中找到的脚本。脚本的路径通常包括产品版本(如 5.3.0),因此路径详细信息会有所不同:
  • 软件包:/usr/share/doc。如果 Search for CDH 5.3.0 已使用软件包安装到默认位置,则可以在 /usr/share/doc/search-1.0.0+cdh5.3.0+0/quickstart 中找到快速启动脚本。
  • Parcel:/opt/cloudera/parcels/CDH/share/doc。如果 Search for CDH 5.3.0 已使用 Parcel 安装到默认位置,则可以在 /opt/cloudera/parcels/CDH/share/doc/search-1.0.0+cdh5.3.0+0/quickstart 中找到快速启动脚本。
该脚本使用您可能想要修改的许多默认值:
2016-07-27_141459.png

默认情况下,该脚本被配置为在 NameNode 主机上运行,它也在 Zookeeper 上运行。当您启动 quickstart.sh 时,请将这些默认值替代为自定义值。例如,要使用备用 NameNode 和 HDFS 用户 ID,您可以启动脚本,如下所示:
[mw_shl_code=shell,true]$ NAMENODE_HOST=nnhost HDFS_USER=jsmith ./quickstart.sh[/mw_shl_code]

当脚本首次运行时,它将下载 Enron 数据和配置文件等必需的文件。如果再次运行该脚本,它将使用已下载的 Enron 信息,而不是再次下载此信息。后续运行时,将使用现有数据重新创建 enron-email-collection SolrCloud 集合。

注释: 从服务器下载数据、扩展数据并上载数据可能需要较长时间。虽然您的连接和 CPU 速度决定这些过程需要的时间,但是通常需要 15 分钟,更长时间也非常普遍。
该脚本还生成 Solr 配置并在 SolrCloud 中创建集合。以下各节介绍了脚本的用途以及如何根据需要手动完成这些步骤。该脚本完成以下任务:

  • 设置变量,如主机名和目录。
  • 创建要向其复制 Enron 数据的目录,然后将该数据复制到此位置。此数据大约 422 MB,在某些测试中,此数据用了大约 5 分钟来下载并用 2 分钟解压缩。
  • 在 HDFS 中为当前用户创建目录,将该目录的所有权更改为当前用户,为 Enron 数据创建目录,并将 Enron 数据加载到该目录中。在某些测试中,花了大约一分钟的时间复制大约 3 GB 的已解压缩的数据。
  • 使用 solrctl创建实例目录的模板。
  • 使用 solrctl 为 Enron 邮件集合创建新的 Solr 集合。
  • 创建 MapReduceBatchIndexer 可以写入结果的目录。确保该目录为空。
  • 使用 MapReduceIndexerTool 为 Enron 数据编制索引并将结果实时推送到 enron-mail-collection。在某些测试中,花了大约 7 分钟的时间完成此任务。
使用 Search 查询已加载的数据

在如 在 Search 中加载数据和为数据编制索引 中所述将数据加载到 Search 之后,您可以使用 Hue 查询数据。

Hue 必须具有管理员权限才能查询已加载的数据。这是因为查询要求 Hue 导入集合或索引,并且这些过程只能使用管理员权限在 Solr 服务上完成。

  • 连接到 Cloudera Manager 并单击 Hue 服务,通常命名为 HUE-1 等类似内容。单击 Hue Web UI。
  • 单击搜索菜单。
  • 选择要导入的 Enron 集合。
  • (可选)单击 Enron 集合以配置搜索结果的显示方式。有关详细信息,请参阅 Hue 配置
  • 在搜索...文本框中键入搜索字符串,然后按 Enter。
  • 查看搜索的结果。
有关详细信息,请参阅:



没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条