分享 HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOu
Aningorg 2019-2-20 10:00
问题: 在CDH集群中用sql语句往hive中hbase的映射表中插入数据时报错如下: Causedby:java.lang.ClassCastException:org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormatcannotbecasttoorg.apache.hadoop.hive.ql.io.HiveOutputFormat atorg ...
1263 次阅读|0 个评论
分享 Spark task完成,却一直不结束原因分析
hyj 2019-2-15 17:50
经常看到一些老铁问这么个一个问题。 明明我的task已经完成了,为什么作业就是不结束那? 遇到这个问题,如果没有经验,那么最有效的办法就是去跟踪日志。可是很多老铁可能觉得跟踪日志比较麻烦,然后这个问题就根本无法解决了。 这里简单总结下。 其中一个原因可能是Spark与Hadoop相结合,在保存saveAsHadoop ...
1661 次阅读|0 个评论
分享 Flink watermark影响的参数
pig2 2019-2-12 10:28
设置watermark后,还可以设置maxOutOfOrder 如本来应该10:40计算的窗口,设置maxOutOfOrder=10,那么会在10:50计算。
1143 次阅读|0 个评论
分享 Flink防止丢失数据机制
pig2 2019-2-12 09:27
allowLateness()能接受最大的延迟时间,延缓窗口内置状态清理时间 sideOutputTag提供了延迟数据获取的一种方式。通过另外的通道获取
2262 次阅读|0 个评论
分享 Flink三种window总结
pig2 2019-2-12 08:42
滚动窗口:没有重叠 滑动窗口:有重叠 session窗口:在没有数据的时候回形成window。
1055 次阅读|0 个评论
分享 Flink window的本质
pig2 2019-2-10 19:56
Flink window是将无限数据切割为有限块数据。方便处理。 window又分为很多种。
758 次阅读|0 个评论
分享 Flink监控:Watermark
pig2 2019-2-8 11:19
Flink监控指标:waterwark该设置多少,很多人有这个疑问,可以通过参数 numLateRecordsDrop 应对watermark调整指标 来调整指标。 另外 一个指标 currentLowWatermark 监控水位线变化
841 次阅读|0 个评论
分享 Flink checkpoint和savepoint二者的区别
pig2 2019-2-7 20:22
checkpoint和savepoint二者的区别: 本质上来说是相似的,用途却是不同的。 checkpoint用来故障恢复 savepoint则是非故障情况下,用来恢复运行。比如集群迁移,升级等
918 次阅读|0 个评论
分享 Flink checkpoint过程
pig2 2019-2-7 20:12
在checkpoint触发时刻,Job Manager会往所有Source的流中放入一个barrier(图中三角形)。barrier包含当前checkpoint的ID flink-checkpoint-02 当barrier经过一个subtask时,即表示当前这个subtask处于checkpoint触发的“时刻”,他就会立即将barrier法往下游,并执行checkpoint方法 ...
672 次阅读|0 个评论
分享 Flink operator状态本质是数据结构
pig2 2019-2-7 17:08
Flink operator状态本质是数据结构: 状态:比如我们认为你的状态如何,其实跟这个状态是差不多的。状态好,我们就会非常高兴。这就是状态,Flink的状态是指某个具体的内容的详细记录,而不止是记录结果。 barrier本质是一条记录
692 次阅读|0 个评论
关闭

推荐上一条 /2 下一条