立即注册 登录
About云-梭伦科技 返回首页

阿飞的个人空间 https://www.aboutyun.com/?3890 [收藏] [复制] [分享] [RSS]

日志

分享 Spark SQL与Hive On MapReduce速度比较
2019-10-31 18:45
Spark SQL与Hive On MapReduce速度比较
1.运行spark-sql shell aboutyun@aboutyun:/opt/spark-1.6.1-bin-hadoop2.6/bin$ spark-sql spark-sql create external table cn(x bigint, y bigint, z bigint, k bigint) row format delimited fields terminated by ',' &nbs ...
850 次阅读|0 个评论
分享 关于Hadoop集群健康-Underreplicatedblocks的含义
2019-9-25 20:19
关于Hadoop集群健康-Underreplicatedblocks的含义
以下内容,总结之 About云VIP ,防止遗忘整理。 对于集群中,如果有大量的Underreplicatedblocks,这个是好,还是不好。 如上有6031 block,集群是健康,还是不健康。 怎么才算健康。 我们需要了解下Underreplicatedblocks UnderReplicatedBlocks是HDFS中关于块复制的一个重要数据结构,更多大家可 ...
1019 次阅读|0 个评论
分享 关于uber运行模式带来的问题总结
2019-9-25 17:37
关于uber运行模式带来的问题总结
以下问题,来 自About云VIP 讨论记录,防止被忘掉。 使用的hive,表中的数据非常少,使用select * from table where id=1,运行没有问题。 select count(1) from table where id=1,出现错误 error while processing statement failed exception excution error return code2 from org.apache.hado ...
612 次阅读|0 个评论
分享 Spark Streaming中复杂的多流Join方案的一个实现
2019-7-7 11:52
Spark Streaming中复杂的多流Join方案的一个实现
问题:多个不同流根据一定规则join的问题(例如:网约车中订单发单流与接单流join问题) 问题 描述:多个不同流根据一定规则join的问题(例如:网约车中订单发单流与接单流join问题) 特点: 不同流需要join的数据时间跨度较长(例如:发单与接单时间跨度最长一周之久) 数据源格式不定 (例如:binlog数据和业务 ...
1756 次阅读|0 个评论
分享 Spark Streaming三种Join方式实践
2019-7-7 11:50
Spark Streaming三种Join方式实践
多数据源Join思路 多数据源Join大致有以下三种思路: 数据源端Join,如Android/IOS客户端在上报用户行为数据时就获取并带上用户基础信息。 计算引擎上Join,如用Spark Streaming、Flink做Join。 结果端Join,如用HBase/ES做Join,Join键做Rowkey/_id,各字段分别写入列簇、列或field。 三种思路各有优劣 ...
848 次阅读|0 个评论
分享 Cloudera 安装manager service遇到问题
2019-7-4 11:07
Cloudera 安装manager service遇到问题
user cannot run ddl statements on the specified database attmpt to create and drop a table failed 原因: 原因:在mysql5.7中使用了 GTID模式,引入了GTID参数,如下所示 gtid_mode = ON enforce_gtid_consistency = ON enforce_gtid_consistency 强制GTID一致性, 启用后以下命令无法 ...
1033 次阅读|0 个评论
分享 实际生产面试案例分享
2019-5-29 16:13
实际生产面试案例分享
这里分享几个实际生产中,大家遇到的问题,以及解决办法。对于正在面试的成员,你可以思考,假如你遇到这样的问题,你该如何处理。如果你已经工作了,由于我们每个人所接触的场景都是有限的。对于下面案例也可以扩充下大家的知识面。 分享案例1: 公司有224台机器,内存单个384G,48core。在集群的使 ...
657 次阅读|0 个评论
分享 centos7 ssh权限过高反而不能成功
2019-5-10 08:39
我们在安装ssh的时候,权限都授权为777,还是不能成功。按照下面的方式权限 sudo chmod 700 ~/.ssh sudo chmod 644 ~/.ssh/authorized_keys 每台都改下,然后重启 ssh成功,因此我们要注意权限问题
868 次阅读|0 个评论
分享 producer如何发送数据集及副本间是如何复制数据的
2019-4-29 18:43
Producer向kafka发送消息的步骤: 1,一条record过来时,首先根据topic向kafka申请这个topic的元数据,包括topic每个partition存储在哪个broker上(Ip地址端口号)。 2,拿到元数据后,根据producer的partioner进行数据分区。默认是hashpartitioner,根据key的hash值分到对应的partition中。如果key为null则轮询发送 ...
754 次阅读|0 个评论
分享 如何看hbase的负载呀
2019-3-29 08:40
HBase 可以根据当前集群的负载以region为单位进行rebalance。在HMaster中,后台会起一个线程定期检查是否需要进行rebalance,线 程叫做BalancerChore。线程每隔 hbase.balancer.period会定期执行 master.balance()函数,配置项默认300000毫秒,5分钟。每次balance最多执行 hbase.balancer.max.balancing,如果没有配置, ...
952 次阅读|0 个评论
关闭

推荐上一条 /2 下一条