立即注册 登录
About云-梭伦科技 返回首页

redhat1986的个人空间 https://www.aboutyun.com/?6183 [收藏] [复制] [分享] [RSS]

日志

分享 Connection to node1.hadooptest.com closed.
2017-6-17 08:27
ERROR: Bootstrap of host node1.hadooptest.com fails because previous action finished with non-zero exit code (1) ERROR MESSAGE: tcgetattr: Invalid argument Connection to node1.hadooptest.com closed. STDOUT: {'exitstatus': 1, 'log': "Host registration aborted. Ambari Agent host ...
个人分类: 遇到过的问题|1850 次阅读|0 个评论
分享 一个很小的表和一个超级大表关联,用Hadoop怎么处理?
2016-4-13 20:51
MapReduce中的join分为好几种,比如有最常见的 reduce side join、map side join和semi join 等。reduce join 在shuffle阶段要进行大量的数据传输,会造成大量的网络IO效率低下,而map side join 在处理多个小表关联大表时非常有用 。 Map side join是针对以下场景进行的优化:两个待连接表中,有一个表非常大,而 ...
个人分类: 面试题|1508 次阅读|0 个评论
分享 转载个Hadoop二次排序
2016-4-13 20:32
一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在 我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理 以及整个MapReduce框架的处理流程的分析 ...
个人分类: 转载|1348 次阅读|0 个评论
分享 mysql 5.7 zip 安装 windowns
2016-3-17 20:51
解压缩 将下载到的文件解压缩到自己喜欢的位置,例如我自己的位置是D:\Program Files\mysql-5.7.10-winx64 添加环境变量 右键计算机-属性-高级系统设置-环境变量;在系统变量里添加MYSQL_HOME环境变量,变量值为MySQL的bin目录,例如我的是D:\P ...
1364 次阅读|1 个评论 热度 1
分享 Hbase 过滤器
2015-6-4 08:50
HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。通常来说,通过行键,值来筛选数据的应用场景较多。 1. RowFilter:筛选出匹配的所有的行 ...
个人分类: 转载|1757 次阅读|0 个评论
分享 Hive 面试题
2015-6-2 10:37
表结构: uid datetime device_id xxx xxx 111  ...
个人分类: 面试题|1736 次阅读|1 个评论 热度 2
分享 hive优化之------控制hive任务中的map数和reduce数
2015-6-2 08:44
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2. 举例: a) 假设input目录下有 ...
个人分类: 转载|1049 次阅读|0 个评论
分享 Hive 数据批量导入hbase
2015-6-2 08:18
HBase 数据的插入可以使用Java API 来写Java 程序逐条倒入,但是不是很方便。利用Hive自带的一个Jar包,可以建立Hive和HBase的映射关系 利用Hive 的insert可以将批量数 据导入到HBase中,还可以通过 Hql 语句进行查询。 具体的配置方法如下: 1、把hive-hbase-handler-0.9.0-cdh4.1.2.jar (CDH5 默认在 /usr/lib/hive/ ...
个人分类: 转载|2966 次阅读|0 个评论
分享 利用Hive实现求两条相邻数据时间差
2015-6-2 08:15
1.Hive row_number() 函数的高级用法 row_num 按照某个字段分区显示第几条数据 select imei,ts,fuel_instant,gps_longitude,gps_latitude, row_number() over (PARTITION BY imei ORDER BY ts ASC) as row_num from sample_data_2 2.row_num 是相互连续的,join 自身,然后时间相减可求差 create table obd_2 ...
个人分类: 遇到过的问题|3347 次阅读|0 个评论
分享 HBase HA (多HMaster)
2014-12-31 18:12
网上大部分安装介绍都是基于单个HMaster的,这样会存在一个单点故障问题.这里我介绍下多个HMaster的安装配置,详见下面配置文件: 一、 hbase-env.sh 文件修改点: # The java implementation to use. Java 1.6 required. export JAVA_HOME=/usr/java/latest # Extra Java CLASSPATH elements ...
个人分类: 备忘录|6864 次阅读|0 个评论
123下一页
关闭

推荐上一条 /2 下一条