分享 Hive优化案例
阿飞 2021-1-6 14:41
1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总并优化,使数据倾斜 ...
1042 次阅读|0 个评论
分享 flink教程-flink 1.11 中的CDC (Change Data Capture)简介
pig2 2020-12-26 19:05
flink教程-flink 1.11 中的CDC (Change Data Capture)简介
CDC简介 CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等, 用户可以在以下的场景下使用CDC: 使用flink sql进行数据同步,可以将数据从一个数据同步到其他的地方,比如mysql、elasticsearch ...
816 次阅读|0 个评论
分享 Apache NIFI详解入门
pig2 2020-12-26 14:50
我将在本文中介绍: 什么是ApacheNIFI,应在什么情况下使用它,理解在NIFI中的关键概念。 我不会介绍的内容: -NIFI集群的安装,部署,监视,安全性和管理。 什么是ApacheNIFI? 在ApacheNIFI项目的官网上,可以找到以下定义: 一个易于使用,功能强大且可靠处理和分发数据的系统。 接下来我们分析一下关键字。 N ...
1363 次阅读|0 个评论
分享 MySQL实时监听——EPX
pig2 2020-12-24 19:28
MySQL实时监听——EPX
1EPX 简介 EPX 主要对 MySQL 数据库进行实时监听,是一个从 Mysql 实时同步变更到 Kafka 的高可用、高性能、可追溯的数据管道。EPX 通过 Binlog Dump 实时获取数据库的增量日志,并通过解析后获取具体的数据变更,最后将变更记录推送到 Kafka 中以供业务方消费。 EPX 具有广泛的应用场景,可以应用于实时 Mysql ...
741 次阅读|0 个评论
分享 批量调度器 Taskctl 的定时任务调度
那不勒斯得孩子 2020-12-22 15:01
Taskctl的定时任务调度: 业界三种主要定时调度方式: 第一种定时+作业 主要代表: 阿里TBS,国内更多开源。 特点: 简单,易理解。但作业可管理性差,每个作业缺乏客观的关系表达。 第二种定时+作业流程 主要代表: 专业调度软件TASKCTL\Control-M ; ETL工具kettle\datastage ;国外大数据调度O0Z ...
596 次阅读|0 个评论
分享 有没有主数据管理方面的书籍
Eric20201120 2020-12-17 20:23
很需要这方面的书籍。
423 次阅读|0 个评论
分享 QPS性能测试工具WRK的简明教程
pig2 2020-12-14 16:31
一、wrk介绍 wrk 是一款针对 Http 协议的基准测试工具,它能够在单机多核 CPU 的条件下,使用系统自带的高性能 I/O 机制,如 epoll,kqueue 等,通过多线程和事件模式,对目标机器产生大量的负载。 二、 wrk 的优势与劣势 1、优势: 轻量级性能测试工具; 安装简单(相对 Apache ab 来说); 学习曲线基本为零 ...
1138 次阅读|0 个评论
分享 记一次性能优化,单台4核8G机器支撑5万QPS
pig2 2020-12-14 15:51
记一次性能优化,单台4核8G机器支撑5万QPS
前言 这篇文章的主题是记录一次Python程序的性能优化,在优化的过程中遇到的问题,以及如何去解决的。为大家提供一个优化的思路,首先要声明的一点是,我的方式不是唯一的,大家在性能优化之路上遇到的问题都绝对不止一个解决方案。 如何优化 首先大家要明确的一点是,脱离需求谈优化都是耍流氓,所以有谁跟你说在 ...
1369 次阅读|0 个评论
分享 用sparkStreaming实时做wordCount出现的错误
boge3355 2020-11-5 11:03
object SparkStreamingWordCount { def main(args: Array ): Unit = { //离线任务是创建SparkContext,现在要实现实时计算,用StreamingContext val conf = new SparkConf().setAppName("SparkStreamingWordCount").setMaster("local ") val sc = new S ...
563 次阅读|0 个评论
分享 kibana api 资料汇总
pig2 2020-10-22 16:00
书籍: Elasticsearch之kibana中文指南 https://www.aboutyun.com/forum.php?mod=viewthreadtid=20511 Kibana中文指南 https://www.aboutyun.com/forum.php?mod=viewthreadtid=26718 使用API自动创建kibana索引 https://www.cnblogs.com/alaska/p/12860182.html Kibana REST API 的使用 ...
667 次阅读|0 个评论
关闭

推荐上一条 /2 下一条