分享 转载个Hadoop二次排序
redhat1986 2016-4-13 20:32
一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在 我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理 以及整个MapReduce框架的处理流程的分析 ...
个人分类: 转载|1349 次阅读|0 个评论
分享 Hbase 过滤器
redhat1986 2015-6-4 08:50
HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。通常来说,通过行键,值来筛选数据的应用场景较多。 1. RowFilter:筛选出匹配的所有的行 ...
个人分类: 转载|1757 次阅读|0 个评论
分享 hive优化之------控制hive任务中的map数和reduce数
redhat1986 2015-6-2 08:44
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2. 举例: a) 假设input目录下有 ...
个人分类: 转载|1049 次阅读|0 个评论
分享 Hive 数据批量导入hbase
redhat1986 2015-6-2 08:18
HBase 数据的插入可以使用Java API 来写Java 程序逐条倒入,但是不是很方便。利用Hive自带的一个Jar包,可以建立Hive和HBase的映射关系 利用Hive 的insert可以将批量数 据导入到HBase中,还可以通过 Hql 语句进行查询。 具体的配置方法如下: 1、把hive-hbase-handler-0.9.0-cdh4.1.2.jar (CDH5 默认在 /usr/lib/hive/ ...
个人分类: 转载|2967 次阅读|0 个评论
分享 Hive详细教程
redhat1986 2014-12-30 18:00
基于 Hadoop 的大数据的计算 / 扩展能力 支持 SQL like 查询语言 统一的元数据管理 简单编程 Hive的安装 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapR ...
个人分类: 转载|1049 次阅读|0 个评论
分享 Centos安装配置NTP
redhat1986 2014-12-29 21:02
NTP是用来使系统和一个精确的时间源保持时间同步的协议。建议大家在自己管理的网络中建立至少一台时间服务器来同步本地时间,这样可以使得在不同的系统上处理和收集日志和管理更加容易,而且不会出错。 官方网站是:http://www.ntp.org/ 从上面我们可以获得Linux下的源代码,以及互联网上的公开的NTP服务 ...
个人分类: 转载|761 次阅读|0 个评论
分享 CentOS 6.3下NTP服务安装和配置(局域网可以自己搭个ntpServer供其他服务器同步时间)
redhat1986 2014-12-29 20:59
测试环境: NTPserver 192.168.1.252 NTPclient 192.168.1.251 准备工作: 关闭selinux: vi /etc/selinux/config SELINUX=disabled 关闭iptables: service iptables stop chkconfig iptables off 一.安装NTP软件包: yum -y install ntp /*yum安装NTP服务*/ chkconfig --add ntpd /*添加NTP ...
个人分类: 转载|1071 次阅读|0 个评论
分享 CentOS下安装JDK7
redhat1986 2014-12-25 20:55
下载地址:http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html 1. 安装JDK1.7.0 下载完成后在取得root权限后执行: # sudo rpm -ivh /目录/jdk-7-linux-x64.rpm 执行结果: Preparing... # ################################## 1:jdk # #### ...
个人分类: 转载|694 次阅读|0 个评论
分享 CentOS下的账户管理
redhat1986 2014-12-25 20:44
CentOS下的账户管理 在Linux中,每个文件都分3类权限:账户本身的权限,账户所在群组的权限和其它权限。账户和群组是多对多的关系,即一个账户可以属于多个群组,一个群组可以包含多个账户。但是,对于每一个已登录的账户,只能存在一个当前生效的群组(初始群组)。 账户管理相关配置文件如下:账户信息文件是/etc/passw ...
个人分类: 转载|764 次阅读|0 个评论
分享 解析Spark在腾讯、雅虎、优酷的成功应用
redhat1986 2014-12-23 09:38
解析Spark在腾讯、雅虎、优酷的成功应用
为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了 Spark 平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算,目前腾讯大数据拥有超过 200 台的 Spark 集群,并独立维护 Spark 和 Shark 分支。 Spark 集群已稳定运行 2 年,我们积累了大量的案例和运营经验能力,另外多个 ...
个人分类: 转载|847 次阅读|0 个评论
关闭

推荐上一条 /2 下一条