立即注册 登录
About云-梭伦科技 返回首页

jixianqiuxue的个人空间 https://www.aboutyun.com/?331 [收藏] [复制] [分享] [RSS]

日志

分享 hive中导入带引号的csv文件方法总结
2015-3-10 00:24
这边有个项目开始用hadoop来做数据分析,我们拿到一个csv文件,每一列都是双引号.格式如下 "cola1","colb1","colc1" "cola2","colb2","colc2" 现在想问下,在load数据到hive里面怎么过滤掉这个双引号? -----------------------------update 20140626---------------------------- --能导成CSV的数据,真的需要 ...
3609 次阅读|0 个评论
分享 hbase 知识点记录
2015-1-14 00:56
阀值就是storefile 的设定大小(参数:hbase.hregion.max.filesize 新版本默认10G) hbase.hregion.max.filesize默认值为10GB 。 如果初始时R=1,那么Min(128MB,10GB)=128MB,也就是说在第一个flush的时候就会触发分裂操作。 当R=2的时候Min(2*2*128MB,10GB)=512MB ,当某个store file大小达到512MB ...
661 次阅读|0 个评论
分享 hadoop map-reduce中的文件并发操作
2014-11-30 14:50
这样的操作在map端或者reduce端均可。下面以一个实际业务场景中的例子来简要说明。 问题简要描述: 假如reduce输入的key是Text(String),value是BytesWritable(byte[]),不同key的种类为100万个,value的大小平均为30k左右,每个key大概对应 100个value,要求对每一个key建立两个文件,一个用来不断添加value中的二进 ...
534 次阅读|0 个评论
分享 hadoop工作中遇到三个问题
2014-11-30 14:40
此问题来自about云群,尝试给出解决方案 1。hdfs的block设置的是128M,发现存储利用率比较低,文件平均大小只有200K-3M左右,图片资源居多,每个文件占用一个BLOCK,通过50070发现文件数与已用BLOCK数基本相当。 问题一:已部署实施的HAOOP,格式化过的HDFS存储的BLOCK的大小能否从128M调整 ...
1168 次阅读|0 个评论
分享 hadoop、eclipse插件汇总
2014-11-29 23:06
hadoop、eclipse插件汇总
hadoop-eclipse-plugin-2.2.0.jar hadoop-eclipse-plugin-1.2.1.jar hadoop-eclipse-plugin-2.5.0.jar hadoop-eclipse-plugin-2.5.1.jar hadoop-eclipse-plugin-2.5.2.jar 链接: http://pan.baidu.com/s/1bn2a8DT 密码: hk15 链接: http://pan.baidu.com/s/1c0vSTgc 密码: t1wi ...
657 次阅读|0 个评论
分享 Hadoop参数说明:dfs.name.dir 与 dfs.data.dir
2014-11-21 12:04
dfs.name.dir Determines where on the local filesystem the DFS name node should store the name table(fsimage). If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy. 这个参数用于确定将HDFS文件系统的元信息保存在什么 ...
911 次阅读|0 个评论
分享 YARN/MRv2 MRAppMaster深入剖析—概述
2014-11-20 13:20
1.什么是MRAppMaster? 我们知道,在MRv1中,JobTracker存在诸多问题,包括存在单点故障,扩展受限等,为了解决这些问题,Apache对MRv1进行了改进,提出了YARN,YARN将JobTracker中的作业控制和资源管理两个功能分开,分别由两个不同的进程处理,进而解决了原有JobTracker存在的问题。经过架构调整之后,YARN已经完全 ...
861 次阅读|0 个评论 热度 1
分享 Yarn的ApplicationMaster管理
2014-11-20 13:19
Yarn的ApplicationMaster管理
首先client向ResourceManager提交程序(包含ApplicationMaster程序, ApplicationMaster 启动命令,用户程序)后, ResourceManager 向资源调度器去申请资源,一旦申请的 ApplicationMaster 需要的资源, ApplicationMaster Laucher便与对应的NodeManager联系启动 ApplicationMaster ,同时向 ApplicationMas ...
588 次阅读|0 个评论
123
关闭

推荐上一条 /2 下一条