分享

在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

问题导读
1、如何分析移动手机使用?
2、怎样在HDInsight中使用Hadoop与Hive?
3、如何在门户网站运行简单实例?





为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。然后,你将分析结果在Microsoft Excel中。

注意:
如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache HadoopMapReduceHDFSHive。要了解HDInsight如何使Hadoop的在Azure中,看HDInsight

Hadoop的介绍
在与Azure中HDInsight全面上市的同时,微软还提供了HDInsight仿真器Azure中,以前称为Microsoft HDInsight开发者预览版。该仿真器的开发目标方案,并只支持单节
点部署。对于使用HDInsight模拟器,请参阅开始使用HDInsight模拟器

注意:
有关如何提供一个HBase的集群的说明,请参见HDInsight提供HBase的集群。看到Hadoop和HBase的区别?什么是要明白相比其他来说你为什么会选择这个。

这个教程怎么做到的?
假设你有一个大的非结构化数据集,并想要运行的查询就可以提取一些有意义的信息。这正是我们要做到在本教程中。下面是我们如何做到这一点:

1.png

您还可以观看本教程的演示视频:http://www.youtube.com/embed/v=Y4aNjnoeaHA?list=PLDrz-Fkcb9WWdY-Yp6D4fTC1ll_3lU-QS


先决条件:

开始之前本教程中,您必须具备以下条件:
•一个Azure订阅。有关获取订阅的详细信息,请参阅购买选择权会员优惠免费试用
•计算机与Office2013专业增强版,Office 365的Pro Plus中时,Excel2013单机版或Office2010专业增强版。

预计时间完成:30分钟
在本教程
•创建一个Azure存储帐户
•提供一个HDInsight集群
•从门户网站运行样本
•运行HIVE工作
•下一步


创建Azure存储帐户
HDInsight使用Azure中Blob存储来存储数据。这就是所谓的WASB或Azure存储 - 的Blob。 WASB是HDFS的在Azure Blob存储Microsoft的实现。欲了解更多信息,请参阅使用

Azure中Blob存储与HDInsight。
当你提供一个HDInsight群集,则指定Azure存储账户。从该帐户的具体的Blob存储容器被指定为默认文件系统,就像在HDFS。该HDInsight群集是默认配置的,在同一个数
据中心作为指定的存储帐户。
除了这个存储账号,你可以添加额外的存储帐户,当你自定义配置HDInsight群集。这个额外的存储帐户可以是从同一Azure订阅或不同Azure中订阅。有关说明,请参阅使用

用自定义选项提供HDInsight集群。
为了简化本教程中,只有默认的blob容器和默认的存储帐户的使用。在实践中,数据文件通常存储在一个指定的存储帐户。


要创建一个Azure存储帐户
1.Sign到Azure管理门户。
2。点击左下角,点数据服务,指向存储新建,然后单击快速创建。
1.png
3。输入网址,位置和复制,然后单击创建存储帐户。不支持的亲和性基团。你会看到列表存储在新的存储帐户。
注意:
快速创建选项,以提供一个HDInsight群集,就像我们在本教程中使用的,不会要求一个位置,同时置备集群。相反,它由缺省共同定位在集群中的同一个数据中心的存储
账户。因此,请确保您的支持群集的位置,这是创建存储账户:东亚,东南亚,北欧,西欧,美东,美西,北环美,南环美。
4。等到新的存储帐户的状态更改为联机。
5。从列表中选择新的存储帐户,然后从页面底部的管理访问密钥。
6。记下存储帐户的名称和主访问密钥(或次访问键。任一按键工作)。在后面的教程中,您将需要他们。

欲了解更多信息,请参阅如何创建一个存储帐户使用Azure中 Blob存储与HDInsight

提供的HDInsight群集
当你提供一个HDInsight群集时,提供Azure计算资源,包含Hadoop和相关应用。在本节中,你提供一个HDInsight群集的版本3.1,这是基于Hadoop的2.4版本。您还可以创
建Hadoop集群使用Azure中门户网站,HDInsight PowerShell命令,或HDInsight.NET SDK的其他版本。有关说明,请参阅使用自定义选项提供HDInsight集群。有关不同
HDInsight版本和他们的SLA信息,请参阅HDInsight组件版本页面。
注意:
本文中的步骤创建一个使用基本配置设置的HDInsight群集。对于其他群集的配置设置,如使用Azure中虚拟网络或metastore为Hive和Oozie的信息,请参阅提供一个
HDInsight群集。

为了提供一个HDInsight集群
1。登录到Azure管理门户。
2。点击左侧HDInsight列出群集在您的帐户的状态。在下面的截图中,有没有现成的HDInsight集群。
1.png

3.Click新的左下侧,点击数据服务,单击HDInsight,然后单击Hadoop的。
1.png



4.输入或选择以下值:

1.png
2.png
保持群集名称的副本。以后在教程中你会需要它的。

5.Click创建HDInsight群集。当配置完成后,状态列显示了运行。
注意:
以上步骤创建集群HDInsight群集的版本3.1。要创建其他集群的版本,使用的管理门户自定义create方法,还是使用Azure中的PowerShell。关于什么是每个群集的版本之
间的不同的信息,看看有什么新的HDInsight所提供的集群版本?有关使用自定义的信息来创建选项,请参阅使用自定义选项提供HDInsight集群。


从门户网站运行简单实例
一个成功设置HDInsight集群提供了一个查询控制台直接从门户网站上运行的示例。您可以使用样本来学习如何使用HDInsight通过一些基本的情况下行走工作。这些样品都具有所有必需的组件,如数据来分析和查询中的数据运行。
要运行示例,从Azure管理门户中,单击要运行该示例,然后单击查询控制台从页面底部的群集名称。从打开的网页中,单击入门画廊选项卡,然后在样本类别中,单击要运行该示例。按照网页上的说明完成示例。为了更多地了解每个样品呢,下面请单击链接。
3.png

请从门户HIVE查询
现在,你有一个配置的HDInsight集群,下一步是运行Hive作业查询Hive样表,hivesampletable,附带HDInsight集群。该表包含关于移动设备制造商,平台和模型数据。我们查询该表由特定制造商来获取用于移动设备的数据。
若要从集群中仪表板上的Hive工作
1.Sign到Azure管理门户
2.Click HDINSIGHT从左侧窗格中。您将看到创建群集的列表,包括你刚才在上一节中创建的。
要运行Hive作业,然后单击查询CONSOLE从页面底部
3.Click群集名称。
4。它不同的浏览器选项卡上打开一个网页。进入Hadoop的用户帐户和密码。默认的用户名是admin;密码是同时置备集群是你进入。仪表盘是这样的:

有顶部的几个标签。默认选项卡是Hive编辑器,而其他选项卡作业历史记录和文件浏览器。使用仪表板,您可以提交Hive查询,查询Hadoop的作业日志和浏览WASB文件。

注意:
注意,在Web页的URL是<集群名称>.azurehdinsight.net。因此,而不是从管理门户打开仪表盘,还可以打开使用该URL的Web浏览器的仪表板。
5.On的Hive编辑器选项卡中,查询名称,输入HTC20。查询名称的职务。
6.In查询窗格中,输入以下查询:

  1. SELECT * FROM hivesampletable  
  2.     WHERE devicemake LIKE "HTC%"  
  3.     LIMIT 20;  
复制代码
1.png

7.单击提交。这需要一些时间来找回结果。在屏幕的刷新间隔为30秒。您也可以点击刷新来刷新屏幕。
一旦完成,该屏幕是这样的:
1.png
8.点击屏幕上的查询名称,查看输出。记作业开始时间(UTC)。以后你会需要它。
1.png
该页面还显示了作业输出和作业日志。您也可以下载输出文件(_stdout)和日志文件(_stderr)的选项。

注意:
在Hive编辑器选项卡中列出了完成或只要你留在该选项卡上运行的作业的作业会话表。如果您离开该页面表没有列出任何工作。作业历史记录选项卡中保存的所有作业,已完成或正在运行的列表。

浏览到该输出文件
1.从群集面板,单击文件浏览器顶部。
2.Click您的存储帐户名称,单击容器名称(这是相同的群集名称),然后单击用户。
3。单击管理,然后单击它有最后修改时间的工作后,一点点开始时间你刚才记下的GUID。记下此GUID的。您将需要在接下来的一节。
1.png

连接到Microsoft商业智能工具
您可以使用电源的查询加载项以Microsoft Excel中从HDInsight导入作业输出到Excel中,在Microsoft商业智能(BI)工具,可以用来进一步分析结果。
您必须具有的Excel2010或2013安装来完成这部分的教程。

下载Microsoft电力查询为Excel
&#8226;从Microsoft下载微软功率查询为Microsoft Excel中心下载并安装它

导入HDInsight数据
1.  打开Excel,并创建一个新的空白工作簿。
2。单击Power查询菜单上,单击自其他来源,然后单击来自Azure中HDInsight。
1.png
3。请输入您的集群相关的Azure中Blob存储帐户的帐户名称,然后单击确定。这是您在本教程前面创建的存储帐户。
4。输入在Azure Blob存储帐户的帐户密钥,然后单击保存。
5。在右侧的导航窗格中,双击BLOB存储容器名称。默认情况下,容器名称是相同的名称群集名称。
6。在名称列中找到标准输出。验证GUID在相应的文件夹路径列匹配你刚才记下的GUID。一场比赛表明,输出数据对应于您提交的作业。点击stdout上的左侧二进制。
1.png
7。单击关闭负载在左上角的Hive作业输出导入到Excel中。
接下来的步骤
在本教程中,你已经学会了如何提供与HDInsight群集,在其上运行一个MapReduce工作,并且将结果导入到Excel中,他们可以进一步加工,并使用BI工具图形化显示。要了解更多信息,请参阅以下文章:


&#8226;开始使用HDInsight模拟器
&#8226;使用Azure中 Blob存储与HDInsight
&#8226;管理HDInsight使用PowerShell
&#8226;上传数据到HDInsight
&#8226;使用的MapReduce与HDInsight
&#8226;使用Hive与HDInsight
&#8226;使用Pig与HDInsight
&#8226;使用了Oozie与HDInsight
&#8226;为HDInsight C#Hadoop的流媒体程序
&#8226;为HDInsight Java的MapReduce程序

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条