分享 Clickhouse bug DB::Exception: PeekableReadBuffer: Memory limit exceed
pig2 2021-3-30 17:13
Caused by: java.lang.Throwable: Code: 241, e.displayText() = DB::Exception: PeekableReadBuffer: Memory limit exceed (version 20.11.4.13 (official build)) 这是clickhouse的一个bug 地址:https://github.com/ClickHouse/ClickHouse/commit/6325b15a63335e2efd7de1ae92d2907493a07a9c 修复版本:v21. ...
41 次阅读|0 个评论
分享 面试必备Hive stage划分
hyj 2021-3-25 07:31
面试必备Hive stage划分
Hive stage划分见下图: 更多细节可参考 https://blog.csdn.net/weixin_43878293/article/details/102648655 https://blog.csdn.net/jiayuanv_127/article/details/50936964
54 次阅读|0 个评论
分享 CDH修改startdate,可以一直免费使用
nettman 2021-3-18 19:51
CDH修改startdate,可以一直免费使用
CDH的使用日期,可以通过CM_VERSION表来进行修改
65 次阅读|0 个评论
分享 Azkaban安装
hyj 2021-2-2 09:52
Azkaban安装
Azkaban安装 1 Azkaban介绍 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种kv文件格式来建立任务之间的关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点: Web用户界面 方便上传工作流 方便设 ...
137 次阅读|0 个评论
分享 解决开发中由于group by造成数据倾斜解决办法
hyj 2021-1-19 18:42
解决开发中由于group by造成数据倾斜解决办法
如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分 ...
217 次阅读|0 个评论
分享 分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
那不勒斯得孩子 2021-1-13 14:49
分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
前言 随着企业拥抱数字化程度的提高,数据是企业的发展关键。数据的需求来源于业务也服务于业务,数据的挖掘、探索、分析、个性化推荐、报表等等都依托于数据的输送、转换和写入。数据的调度就是作业的调度。批量作业调度是金融行业信息后台最为重要的技术形态。 金融行业每天会进行交易相关的结算、清算、结息、对账等 ...
148 次阅读|0 个评论
分享 Kerberos身份验证流程
阿飞 2021-1-11 16:48
Kerberos身份验证流程
介绍: Kerberos 是一种由 MIT(麻省理工大学)提出的一种网络身份验证协议。它旨在通过使用密钥加密技术为客户端/服务器应用程序提供强身份验证。 在 Kerberos 认证中,最主要的问题是如何证明「你是你」的问题,如当一个 Client 去访问 Server 服务器上的某服务时,Server 如何判断 Client 是否有权限来访问 ...
202 次阅读|0 个评论
分享 Hive优化案例
阿飞 2021-1-6 14:41
1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总并优化,使数据倾斜 ...
240 次阅读|0 个评论
分享 flink教程-flink 1.11 中的CDC (Change Data Capture)简介
pig2 2020-12-26 19:05
flink教程-flink 1.11 中的CDC (Change Data Capture)简介
CDC简介 CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等, 用户可以在以下的场景下使用CDC: 使用flink sql进行数据同步,可以将数据从一个数据同步到其他的地方,比如mysql、elasticsearch ...
218 次阅读|0 个评论
分享 Apache NIFI详解入门
pig2 2020-12-26 14:50
我将在本文中介绍: 什么是ApacheNIFI,应在什么情况下使用它,理解在NIFI中的关键概念。 我不会介绍的内容: -NIFI集群的安装,部署,监视,安全性和管理。 什么是ApacheNIFI? 在ApacheNIFI项目的官网上,可以找到以下定义: 一个易于使用,功能强大且可靠处理和分发数据的系统。 接下来我们分析一下关键字。 N ...
222 次阅读|0 个评论
关闭

推荐上一条 /5 下一条