分享 Hbase图片如何解决小文件问题
pig2 2019-7-12 16:50
提问: 群主您好:业务场景就是把实时拍的的图片发在一个地方,用spark实时用模型做分拣出正常的和异常的,每个图片几M的小文件,存在hdfs会造成小文件特多,要好的解决方案吗 如果说只是小文件,其实解决方案还是挺多的,比如Hadoop Archive,Sequence file,CombineFileInputFormat等都可以解决。但是这里 ...
1030 次阅读|0 个评论
分享 Spark Streaming中复杂的多流Join方案的一个实现
阿飞 2019-7-7 11:52
Spark Streaming中复杂的多流Join方案的一个实现
问题:多个不同流根据一定规则join的问题(例如:网约车中订单发单流与接单流join问题) 问题 描述:多个不同流根据一定规则join的问题(例如:网约车中订单发单流与接单流join问题) 特点: 不同流需要join的数据时间跨度较长(例如:发单与接单时间跨度最长一周之久) 数据源格式不定 (例如:binlog数据和业务 ...
1778 次阅读|0 个评论
分享 Spark Streaming三种Join方式实践
阿飞 2019-7-7 11:50
Spark Streaming三种Join方式实践
多数据源Join思路 多数据源Join大致有以下三种思路: 数据源端Join,如Android/IOS客户端在上报用户行为数据时就获取并带上用户基础信息。 计算引擎上Join,如用Spark Streaming、Flink做Join。 结果端Join,如用HBase/ES做Join,Join键做Rowkey/_id,各字段分别写入列簇、列或field。 三种思路各有优劣 ...
849 次阅读|0 个评论
分享 ORC存储格式介绍
pig2 2019-7-6 10:47
ORC存储格式介绍
orc历史 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。 orc结构–----hdfs上的物理视图 orc结构----逻辑视图 orc存储结构解析 orc文件有如下结构快:block ...
915 次阅读|0 个评论
分享 Hive UDF,UDAF,UDTF如何系统了解及使用
pig2 2019-7-6 09:12
Hive UDF,UDAF,UDTF这个知识点并不大,所以一篇文章足够了,如果想系统的学习,我们弄明白下面四个问题足够了: 一、它是什么? 二、为何产生? 三、它的作用? 四、如何使用 ———————————————— 这里我们回答前三个问题: 一、它是什么? 1、UDF函数:用户定义函数 2、UDAF函数:用户定义聚集 ...
958 次阅读|0 个评论
分享 不解压jar包,修改并替换jar包的文件
Aningorg 2019-7-5 21:12
如果要替换的文件在jar包的二级及以下目录下,则需要以下步骤: (1)使用jar tvf jar名称 | grep 目标文件名 查询出目标文件在war包中的目录 (2)使用jar xvf jar名称 目标文件名(copy上面查出的全路径) 将目标文件及所在war包中的目录解压到当前路径 (3)修改目标文件的内容,或者将要新的目标文件替换掉 ...
1246 次阅读|0 个评论
分享 hdfs修改了副本数,为什么数据所占的空间不变
bioger_hit 2019-7-5 14:59
将HDFS副本数由3减为1.重启集群无效。该参数是clinet端有效,既对新写入的数据设置1个副本。 已存在的数据副本还是3个 执行命令将某目录下数据副本改为1 hadoop dfs -setrep -w 1 -R /user 执行 hdfs balancer 均衡集群数据
1484 次阅读|0 个评论
分享 Cloudera 安装manager service遇到问题
阿飞 2019-7-4 11:07
Cloudera 安装manager service遇到问题
user cannot run ddl statements on the specified database attmpt to create and drop a table failed 原因: 原因:在mysql5.7中使用了 GTID模式,引入了GTID参数,如下所示 gtid_mode = ON enforce_gtid_consistency = ON enforce_gtid_consistency 强制GTID一致性, 启用后以下命令无法 ...
1033 次阅读|0 个评论
分享 Flink因为jdk版本造成的错误
s060403072 2019-7-4 09:23
caused by java.lang.illegalstateexception:buffer pool is destoryed 我们从网上下载源码,但是不能运行,出现上面错误,是因为jdk的小版本造成的。 比如你使用jdk1.8某个版本,最好尝试另外小版本。 以上内容总结之About云微信群:喜欢讨论技术可以加微信w3aboutyun,拉入技术讨论群 ...
1163 次阅读|0 个评论
分享 kerberos编程遇到问题总结
nettman 2019-7-2 08:04
想请问两个问题: 1、如何使用Java或者其他语言制作临时票据给其他客户端使用? 2、使用kinit后在机器上生成的/tmp/brb5cc_UID(这个就是缓存的票据)拿到后使用Java如何进行登陆认证? 1、通过获取缓存票据因为是C API接口,暂时未找到Java 获取的接口, 2、认证采用UserGroupInformation ugi = UserG ...
1094 次阅读|0 个评论
关闭

推荐上一条 /2 下一条