分享 分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
那不勒斯得孩子 2021-1-13 14:49
分布式批量任务调度、自动化运维管理监控平台Taskctl-Web免费应用版
前言 随着企业拥抱数字化程度的提高,数据是企业的发展关键。数据的需求来源于业务也服务于业务,数据的挖掘、探索、分析、个性化推荐、报表等等都依托于数据的输送、转换和写入。数据的调度就是作业的调度。批量作业调度是金融行业信息后台最为重要的技术形态。 金融行业每天会进行交易相关的结算、清算、结息、对账等 ...
706 次阅读|0 个评论
分享 Kerberos身份验证流程
阿飞 2021-1-11 16:48
Kerberos身份验证流程
介绍: Kerberos 是一种由 MIT(麻省理工大学)提出的一种网络身份验证协议。它旨在通过使用密钥加密技术为客户端/服务器应用程序提供强身份验证。 在 Kerberos 认证中,最主要的问题是如何证明「你是你」的问题,如当一个 Client 去访问 Server 服务器上的某服务时,Server 如何判断 Client 是否有权限来访问 ...
1033 次阅读|0 个评论
分享 Hive优化案例
阿飞 2021-1-6 14:41
1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总并优化,使数据倾斜 ...
1047 次阅读|0 个评论
分享 ES索引学习记录
pig2 2021-1-5 14:36
ES索引学习记录
文档和索引的关系 一个文档必须关联索引,就像关系数据库中一行属于某个表 Index 在es中,索引大概有以下三种含义与作用: 1. 动词,es中一种创建文档的方式,就是现在讲到的。 2. 名词,es组织文档的方式,下面会讲到。 3. 动词,对文档的字段进行分词并存储,以后会讲到 es索引,是es组织文档的方式, ...
756 次阅读|1 个评论
分享 彻底打通实时数据仓库该如何实现及多种技术架构解析
admin 2020-12-28 08:20
问题导读 1.实时数据仓库有哪些特点? 2. 公司构建实时数据仓库有哪些好处? 3.如何构建实时数据仓库? 4.实时数据仓库本文解析了哪些架构? 越来越多的实时数据需求,需要更多的实时数据来做业务决策,例如需要依据销售情况做一个资源位的调整;同时有些活动也需要实时数据来增强与用户的互动。如果 ...
831 次阅读|0 个评论
分享 flink教程-flink 1.11 中的CDC (Change Data Capture)简介
pig2 2020-12-26 19:05
flink教程-flink 1.11 中的CDC (Change Data Capture)简介
CDC简介 CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等, 用户可以在以下的场景下使用CDC: 使用flink sql进行数据同步,可以将数据从一个数据同步到其他的地方,比如mysql、elasticsearch ...
820 次阅读|0 个评论
分享 Apache NIFI详解入门
pig2 2020-12-26 14:50
我将在本文中介绍: 什么是ApacheNIFI,应在什么情况下使用它,理解在NIFI中的关键概念。 我不会介绍的内容: -NIFI集群的安装,部署,监视,安全性和管理。 什么是ApacheNIFI? 在ApacheNIFI项目的官网上,可以找到以下定义: 一个易于使用,功能强大且可靠处理和分发数据的系统。 接下来我们分析一下关键字。 N ...
1367 次阅读|0 个评论
分享 MySQL实时监听——EPX
pig2 2020-12-24 19:28
MySQL实时监听——EPX
1EPX 简介 EPX 主要对 MySQL 数据库进行实时监听,是一个从 Mysql 实时同步变更到 Kafka 的高可用、高性能、可追溯的数据管道。EPX 通过 Binlog Dump 实时获取数据库的增量日志,并通过解析后获取具体的数据变更,最后将变更记录推送到 Kafka 中以供业务方消费。 EPX 具有广泛的应用场景,可以应用于实时 Mysql ...
742 次阅读|0 个评论
分享 批量调度器 Taskctl 的定时任务调度
那不勒斯得孩子 2020-12-22 15:01
Taskctl的定时任务调度: 业界三种主要定时调度方式: 第一种定时+作业 主要代表: 阿里TBS,国内更多开源。 特点: 简单,易理解。但作业可管理性差,每个作业缺乏客观的关系表达。 第二种定时+作业流程 主要代表: 专业调度软件TASKCTL\Control-M ; ETL工具kettle\datastage ;国外大数据调度O0Z ...
597 次阅读|0 个评论
分享 有没有主数据管理方面的书籍
Eric20201120 2020-12-17 20:23
很需要这方面的书籍。
426 次阅读|0 个评论
关闭

推荐上一条 /2 下一条