假如spark streaming异常退出，该如何去做容错？

大家好。

我现在的应用场景是 kafka+ spark streaming

近实时处理数据。 spark streaming处理的数据是近两个小时的数据，超过两个小时的数据直接丢弃。

那么现在spark streaming 假如出现异常，导致我的数据过期，后面的指标计算出现偏差，应该如何去做容错呢？

liuzhixin137 · 发表于 2016-8-25 10:26:46

@desehawk @howtodown @xuanxufeng @helianthus

liuzhixin137 · 发表于 2016-8-25 10:36:07

还有一个问题，spark sql 会产生大量的小文件，应该如何去避免这种情况，

如果用hive的话，hive可以自动去合并这些小文件，但是spark sql 并不会

langke93 · 发表于 2016-8-25 12:40:04

liuzhixin137 发表于 2016-8-25 10:36
还有一个问题，spark sql 会产生大量的小文件，应该如何去避免这种情况，

如果用hive的话，hive可以自动 ...

楼主只要处理好自己的程序就好了。剩下的交给框架来做。
比如你的程序异常了，你只需要捕获异常，输出到日志，查找到问题即可。

推荐参考
Spark Streaming容错的改进和零数据丢失
http://www.aboutyun.com/forum.php?mod=viewthread&tid=11814

langke93 · 发表于 2016-8-25 15:14:13

启用预写日志后应该不会丢失

当启用了预写日志以后，所有收到的数据同时还保存到了容错文件系统的日志文件中。因此即使Spark Streaming失败，这些接收到的数据也不会丢失。另外，接收数据的正确性只在数据被预写到日志以后接收器才会确认，已经缓存但还没有保存的数据可以在driver重新启动之后由数据源再发送一次。这两个机制确保了零数据丢失，即所有的数据或者从日志中恢复，或者由数据源重发。

图文精华

假如spark streaming异常退出，该如何去做容错？

已有(4)人评论

回帖奖励 +12 云币

最佳新人

热心会员

活跃会员

推荐 /2


48 云币回复本帖可获得 12 云币奖励! 每人限 1 次