分享 数据仓库T+1模型思想
nettman 2019-5-27 22:43
首先什么是T+1模型 可以简单理解为数据中的1,2,3,4 ...T, T + 1. 可以理解为,今天之前是一个 T单位的数据,新加一天就是(T + 1)单位的数据。 这里的T可以理解为每天。 然后基本仓库可以分为 1.ODS层: |-sdm每日的增量表数据 |-fdm部分需要保存全量数据的表。 注 ...
2264 次阅读|0 个评论
分享 Flink并行度,都是在哪里可以设置
nettman 2019-5-27 18:42
Flink并行度,都是在哪里可以设置
本节介绍如何在Flink中配置程序的并行执行。FLink程序由多个任务(转换/操作符、数据源和sinks)组成。任务被分成多个并行实例来执行,每个并行实例处理任务的输入数据的子集。任务的并行实例的数量称之为并行性。 如果要使用保存点,还应该考虑设置最大并行性(或最大并行性)。当从保存点还原时,可以改变特定运 ...
1836 次阅读|0 个评论
分享 spark io.eofexception:unexpected end of input stream
hyj 2019-5-25 17:34
spark io.eofexception:unexpected end of input stream 原因: 数据源的问题,比如一些非常规的文件需要考虑进入,比如gz包等
1257 次阅读|0 个评论
分享 kafka分区设计的原则是什么?
pig2 2019-5-23 12:43
很多成员在设计kafka的时候,感觉该如何设计几个分区而发愁? 其实我们要明白kafka分区的目的是为了让数据均衡分区,消费起来更加的均衡。 因此我们设计可以根据机器的个人和数据分类来考虑设计分区。 比如数据有几个类,我们可以设计topic有几个分区。 在我们设计了分区后,如果有充足的机器,我们可以在多设计 ...
1724 次阅读|0 个评论
分享 IntelliJ IDEA导入项目手册及问题总结【Flink代码为例】
pig2 2019-5-21 17:04
问题导读 1.IDEA社区版如何import项目? 2.项目导入中,该如何选择避免找不到相关包? 3.导入的过程中,有哪些需要注意的? 导入准备: 源码: FlinkExample-master.zip (223.69 KB, 下载次数: 0, 售价: 2 云币) IDEA: 破解版无需注册码,直接安装即可 ideaIC-2 ...
1916 次阅读|0 个评论
分享 java spfa 算法 demo 最短路径双向
hyj 2019-5-21 15:47
import java.util.ArrayList; import java.util.HashMap; import java.util.LinkedList; import java.util.List; import java.util.Map; public class MySpfa { public static void main(String ") ); } } //点集合 public int ; if(tt==st){ dist.put(st, 0); / ...
844 次阅读|0 个评论
分享 构建适配Oozie调度的shell任务
s060403072 2019-5-20 11:41
Directory Oozie在日常任务调度过程中,可以发起shell action,符合预期的情况是,当oozie调度的脚本执行失败,后续队列的任务也应该失败或者暂停。 但是我们在生产环境发现如果一个负责调度其它任务的shell脚本内部执行任务失败,oozie并不能捕捉到脚本内部任务的状态,猜测是以最后脚本执行的任务状态去判断0或1的 ...
885 次阅读|0 个评论
分享 k8s常用命令集合
s060403072 2019-5-19 19:50
查看集群信息: # kubectl cluster-info 查看更详细的可以用 kubectl cluster-info dump 查看各组件状态 # kubectl -s http://localhost:8080 get componentstatuses GET信息: 输出其它格式和方法(kubectl get -h查看帮助) 查看节点 # kubectl get nodes 查看rc和namespace # kubectl g ...
1850 次阅读|0 个评论
分享 docker常用命令
bioger_hit 2019-5-19 19:48
1.列出本地全部镜像 docker image ls 2.列出指定镜像 docker image ls nginx 3.获取一个新的镜像 docker pull nginx:latest 4.查看镜像大小 docker images alpine:latest 5.查看Image组成 docker image history alpine:3.7 6.导出镜像 docker save alpine alpine.tar 或通过 -o 指 ...
837 次阅读|0 个评论
分享 elasticsearch自动按天创建索引脚本
bioger_hit 2019-5-17 13:20
elasticsearch保存在一个索引中数据量太大无法查询,现在需要将索引按照天来建,查询的时候关联查询即可 有时候es集群创建了很多索引,删不掉,如果是测试环境或者初始化es集群(清空所有数据),可以直接关掉elastic进程,然后删除nodes下面的所有数据,再次启动集群即可,记录一下避免忘记 导出mapping信息放到/ro ...
1355 次阅读|0 个评论
关闭

推荐上一条 /2 下一条