分享 Flink 读取hbase 慢该如何解决
nettman 2021-7-5 22:56
Flink 读取hbase 由于hbase只有32分区(buckload之后自动分区)所以flink有32个算子读取数据 读取数据比较慢 实际上只有两个数据节点在计算(有四个计算节点 30 * 4 slots) 有什么方案可以加快读取hbase数据 可以打印些日志,看每个slot消费的是谁的分区
1103 次阅读|0 个评论
分享 About云VIP面试提升课程介绍
admin 2021-6-8 14:41
本课程包含面试和提升,包括面试考点、面试指导等方面的内容,全面系统的帮助我们面试和提升。 很多同学在培训技术后,仍然找不到工作,是因为整体、综合能力没有得到提升。 本套课程目标是打造一个职场人全面素质的提升,比如技术能力、沟通能力、表达能力、思维能力、学习能力等方面的提升。这些能力的提升不止是 ...
871 次阅读|0 个评论
分享 jvm hs_err_pid.log 文件分析工具 CrashAnalysis 使用教程
阿飞 2021-5-13 15:10
jvm hs_err_pid.log 文件分析工具 CrashAnalysis 使用教程
在上一篇《jvm crash(崩溃)文件 hs_err_pid.log 分析教程》中,我们可以看到 jvm crash 后生成的 hs_err_pid.log 文件非常的复杂,非常的难懂!那么有没有一款工具能帮助我们来分析它呢?且看本文给你推荐的这款工具 CrashAnalysis 的用法。 CrashAnalysis 简介 CrashAnalysis 是一款诊断工具。是某APM项目组成 ...
2752 次阅读|0 个评论
分享 Clickhouse bug DB::Exception: PeekableReadBuffer: Memory limit exceed
pig2 2021-3-30 17:13
Caused by: java.lang.Throwable: Code: 241, e.displayText() = DB::Exception: PeekableReadBuffer: Memory limit exceed (version 20.11.4.13 (official build)) 这是clickhouse的一个bug 地址:https://github.com/ClickHouse/ClickHouse/commit/6325b15a63335e2efd7de1ae92d2907493a07a9c 修复版本:v21. ...
1192 次阅读|0 个评论
分享 面试必备Hive stage划分
hyj 2021-3-25 07:31
面试必备Hive stage划分
Hive stage划分见下图: 更多细节可参考 https://blog.csdn.net/weixin_43878293/article/details/102648655 https://blog.csdn.net/jiayuanv_127/article/details/50936964
1478 次阅读|0 个评论
分享 CDH修改startdate,可以一直免费使用
nettman 2021-3-18 19:51
CDH修改startdate,可以一直免费使用
CDH的使用日期,可以通过CM_VERSION表来进行修改
937 次阅读|0 个评论
分享 Azkaban安装
hyj 2021-2-2 09:52
Azkaban安装
Azkaban安装 1 Azkaban介绍 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种kv文件格式来建立任务之间的关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点: Web用户界面 方便上传工作流 方便设 ...
778 次阅读|0 个评论
分享 解决开发中由于group by造成数据倾斜解决办法
hyj 2021-1-19 18:42
解决开发中由于group by造成数据倾斜解决办法
如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分 ...
1442 次阅读|0 个评论
分享 分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
那不勒斯得孩子 2021-1-13 14:49
分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
前言 随着企业拥抱数字化程度的提高,数据是企业的发展关键。数据的需求来源于业务也服务于业务,数据的挖掘、探索、分析、个性化推荐、报表等等都依托于数据的输送、转换和写入。数据的调度就是作业的调度。批量作业调度是金融行业信息后台最为重要的技术形态。 金融行业每天会进行交易相关的结算、清算、结息、对账等 ...
706 次阅读|0 个评论
分享 Kerberos身份验证流程
阿飞 2021-1-11 16:48
Kerberos身份验证流程
介绍: Kerberos 是一种由 MIT(麻省理工大学)提出的一种网络身份验证协议。它旨在通过使用密钥加密技术为客户端/服务器应用程序提供强身份验证。 在 Kerberos 认证中,最主要的问题是如何证明「你是你」的问题,如当一个 Client 去访问 Server 服务器上的某服务时,Server 如何判断 Client 是否有权限来访问 ...
1031 次阅读|0 个评论
关闭

推荐上一条 /2 下一条