分享 解决开发中由于group by造成数据倾斜解决办法
hyj 2021-1-19 18:42
解决开发中由于group by造成数据倾斜解决办法
如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分 ...
21 次阅读|0 个评论
分享 分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
那不勒斯得孩子 2021-1-13 14:49
分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
前言 随着企业拥抱数字化程度的提高,数据是企业的发展关键。数据的需求来源于业务也服务于业务,数据的挖掘、探索、分析、个性化推荐、报表等等都依托于数据的输送、转换和写入。数据的调度就是作业的调度。批量作业调度是金融行业信息后台最为重要的技术形态。 金融行业每天会进行交易相关的结算、清算、结息、对账等 ...
24 次阅读|0 个评论
分享 Kerberos身份验证流程
阿飞 2021-1-11 16:48
Kerberos身份验证流程
介绍: Kerberos 是一种由 MIT(麻省理工大学)提出的一种网络身份验证协议。它旨在通过使用密钥加密技术为客户端/服务器应用程序提供强身份验证。 在 Kerberos 认证中,最主要的问题是如何证明「你是你」的问题,如当一个 Client 去访问 Server 服务器上的某服务时,Server 如何判断 Client 是否有权限来访问 ...
45 次阅读|0 个评论
分享 Hive优化案例
阿飞 2021-1-6 14:41
1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总并优化,使数据倾斜 ...
70 次阅读|0 个评论
分享 ES索引学习记录
pig2 2021-1-5 14:36
ES索引学习记录
文档和索引的关系 一个文档必须关联索引,就像关系数据库中一行属于某个表 Index 在es中,索引大概有以下三种含义与作用: 1. 动词,es中一种创建文档的方式,就是现在讲到的。 2. 名词,es组织文档的方式,下面会讲到。 3. 动词,对文档的字段进行分词并存储,以后会讲到 es索引,是es组织文档的方式, ...
55 次阅读|1 个评论
分享 hadoop2.x + HA + zookeeper集群环境搭建
linux_oracle 2020-12-29 11:15
1.环境准备 centos6系统(8台机器) 、jdk1.8、 hadoop-2.6.3.tar.gz、 zookeeper-3.4.6 机器名称 安装软件 说明 master1 hadoop namenode节点(主备HA) master2 hadoop namenode节点(主备HA) node1 hadoop datanode节点 node2 hadoop datanode节点 ...
1 次阅读|0 个评论
分享 彻底打通实时数据仓库该如何实现及多种技术架构解析
admin 2020-12-28 08:20
问题导读 1.实时数据仓库有哪些特点? 2. 公司构建实时数据仓库有哪些好处? 3.如何构建实时数据仓库? 4.实时数据仓库本文解析了哪些架构? 越来越多的实时数据需求,需要更多的实时数据来做业务决策,例如需要依据销售情况做一个资源位的调整;同时有些活动也需要实时数据来增强与用户的互动。如果 ...
65 次阅读|0 个评论
分享 flink教程-flink 1.11 中的CDC (Change Data Capture)简介
pig2 2020-12-26 19:05
flink教程-flink 1.11 中的CDC (Change Data Capture)简介
CDC简介 CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等, 用户可以在以下的场景下使用CDC: 使用flink sql进行数据同步,可以将数据从一个数据同步到其他的地方,比如mysql、elasticsearch ...
80 次阅读|0 个评论
分享 Apache NIFI详解入门
pig2 2020-12-26 14:50
我将在本文中介绍: 什么是ApacheNIFI,应在什么情况下使用它,理解在NIFI中的关键概念。 我不会介绍的内容: -NIFI集群的安装,部署,监视,安全性和管理。 什么是ApacheNIFI? 在ApacheNIFI项目的官网上,可以找到以下定义: 一个易于使用,功能强大且可靠处理和分发数据的系统。 接下来我们分析一下关键字。 N ...
102 次阅读|0 个评论
分享 MySQL实时监听——EPX
pig2 2020-12-24 19:28
MySQL实时监听——EPX
1EPX 简介 EPX 主要对 MySQL 数据库进行实时监听,是一个从 Mysql 实时同步变更到 Kafka 的高可用、高性能、可追溯的数据管道。EPX 通过 Binlog Dump 实时获取数据库的增量日志,并通过解析后获取具体的数据变更,最后将变更记录推送到 Kafka 中以供业务方消费。 EPX 具有广泛的应用场景,可以应用于实时 Mysql ...
85 次阅读|0 个评论
关闭

推荐上一条 /5 下一条