分享

kafka-spark-consumer源码 下载

描述

用于Spark Streaming的高性能Kafka消费者。 兼容所有Spark和Kafka版本,包括最新的Spark 2.2.0和Kafka 0.11.0。 现在支持Kafka Security。 Zookeeper中的偏移管理。 可靠的No-Dataloss保证。 不依赖于HDFS或Checkpointing和WAL。 内置PID速率控制器

内容
注意:此Kafka Spark Consumer代码取自Apache Storm项目的Kafka spout(https://github.com/apache/storm/tree/master/external/storm-kafka),该项目最初由wurstmeister创建(https: //github.com/wurstmeister/storm-kafka-0.8-plus)。 Original Storm Kafka Spout Code已经过修改,可与Spark Streaming配合使用。

该实用程序将有助于使用Spark Streaming从Kafka中提取消息,并更好地处理Kafka偏移并处理故障。

此Consumer已实现Custom Reliable Receiver,它使用Kafka Consumer API从Kafka获取消息并将每个接收到的块存储在Spark BlockManager中。逻辑将自动检测主题的分区数量,并根据配置的接收器数量生成多个Kafka Receiver。每个Receiver都可以从一个或多个Kafka分区中获取消息。
例如如果Kafka有100个主题分区,而Spark Consumer配置有20个Receiver,则每个Receiver将处理5个分区。

一旦Spark Streaming批处理完成,该消费者可以提交已处理批次的偏移量。

在Spark驱动程序代码中,通过调用ReceiverLauncher.launch启动Receivers

有关如何使用此低级别使用者的信息,请参阅Java或Scala代码示例
1.png



代码下载:
kafka-spark-consumer-master.zip (70.04 KB, 下载次数: 4)

已有(1)人评论

跳转到指定楼层
jiangzi 发表于 2018-8-10 10:59:39
Spark Streaming的高性能Kafka消费者~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条