58同城大数据开发复试面试经验分享(附答案)

本帖最后由 levycui 于 2022-5-10 10:49 编辑

问题导读：
1、Flink 如何解决作业资源随着需求的变化而动态调整的？
2、Flink kafka sink 插件如何设计？
3、推理过程中若是任务突然中止，模型和数据丢失怎么办？
4、资源使用率过低的话，K8S 应该怎么处理？

今天为大家分享 58 同城大数据开发(流计算方向)社招二面、三面面经，附上答案。

二面平台负责人面

由于到了大数据平台负责人面试关节，所以不会过多的问一些基础问题，全程从项目的角度出发，通过项目来引发扩展问题，这里我主要分享 4 个通过项目扩展出的知识点。

1 面试官：在你们生产环境上，Flink 如何解决作业资源随着需求的变化而动态调整的？

考察 Flink 资源管理知识点

简答

回答：公司目前一部分业务是将 Flink 任务运行在 K8S 容器上的，使用 Flink Reactive Mode 响应模式，将 Flink 集群部署到 K8S 容器中，通过 K8S 的 Pod 水平自动扩缩容组件来实现 Flink 作业资源 TaskManager 的动态改变。

K8S 的 Pod 水平自动缩放组件会监控所有 TaskManager pods 的 CPU 负载来相应的调整副本因子（replication factor）。当 CPU 负载升高时，autoscaler 会增加 TaskManager 资源来平摊压力；当负载降低时，autoscaler 会减少 TaskManager 资源。

背后原理

首先，在 Flink 1.14.0 最新版本中依旧无法做到 Job 在运行时动态调整并行度不经历重启直接拉起新的 Task 实例运行，目前都是基于重启恢复机制来实现的，因为涉及到状态管理。

在资源管理中，资源的获取包含两种模式：

Active 模式：主动式，Flink 可以主动申请、释放资源（通过与资源管理框架集成，如 Yarn、Mesos）。

Reactive 模式：被动响应式，该模式由外部系统来分配，释放资源，Flink 只是简单地对可用资源进行响应。（这种模式对于基于容器环境相当有意义，如 K8S ）

现在 Flink 的资源管理模式是 Active 模式，由用户明确指定 Job 需要的资源，JobMaster 会向 ResourceManager 去请求用户指定的全量资源，当 ResourceManager 无法满足 JobMaster 的申请需求时，该 job 将无法正常启动，它会陷入失败重启->再次尝试申请的循环。

为了能够同时支持 Active/Reactive 这两种模式，Flink 1.13.0 版本引入声明式资源管理设计。

该功能与原先最大差别在于：JobMaster 不再去逐个请求 Slot，而是声明需要的资源情况，对资源要求是弹性范围的，不是固定的。

弹性资源包含四件套：(min, target, max, rs)，每个元素的含义如下：

min : 执行 Job 的最小资源。
target : JobMaster 期望获得的常规资源需求，它是可变的，这是扩缩容的主要触发机制。
max : 最大资源期望。
rs : resource spec（资源描述信息）。

详细设计原理可以参考如下链接：

https://www.bianchengquan.com/article/574992.html

2 面试官：Flink kafka sink 插件如何设计？

考察 Flink connector sink 知识点

回答：在 Flink 1.14.0 版本，FlinkKafkaProducer 已经被已弃用，将在 Flink 1.15 中删除，新版本使用 KafkaSink 。

设计 Flink kafka sink 时，可以集成 KafkaSink 类，KafkaSink 允许将记录流写入一个或多个 Kafka 主题。

同时 Kafka sink 提供了一个构建器类来构造一个 KafkaSink 的实例。下面的代码片段展示了如何将字符串记录写入 Kafka 主题，并保证至少一次的交付。

DataStream<String> stream = ...
        
KafkaSink<String> sink = KafkaSink.<String>builder()
        .setBootstrapServers(brokers)
        .setRecordSerializer(KafkaRecordSerializationSchema.builder()
            .setTopic("topic-name")
            .setValueSerializationSchema(new SimpleStringSchema())
            .setDeliveryGuarantee(DeliveryGuarantee.AT_LEAST_ONCE)
            .build()
        )
        .build();
        
stream.sinkTo(sink);
复制代码

KafkaSink 支持三种不同的 DeliveryGuarantees 语义。必须启用 DeliveryGuarantee.AT_LEAST_ONCE 和 DeliveryGuarantee.EXACTLY_ONCE checkpoint 。默认情况下 KafkaSink 使用 DeliveryGuarantee.NONE.

3 面试官：模型推理过程中要是单个模型过大，如何发送到 kafka？

考察 kafka 单个消息体多大知识点

回答：在 kafka 中，默认单条消息最大为 1 M，当单条消息长度超过 1 M 时，就会出现发送到 broker 失败，从而导致消息在 producer 的队列中一直累积，直到撑爆生产者的内存。

所以在实际生产环境中，由于我们的单个模型是 5 M 多，所以刚开始出现上述的发送到 broker 失败问题。

解决办法，只往 kafka 中发送消息体的 ID、 Location、Name，这样消费者消费数据时，直接根据对应ID、Location 可以消费到模型。

4 面试官：推理过程中若是任务突然中止，模型和数据丢失怎么办？

考察 Flink state、checkpoint 知识点

为了支持 Flink 推理功能，防止模型丢失问题，使用 flink checkpoint 机制实现，让推理算子实现 CheckpointedFunction 接口，将 model 以 value state 写入状态后端。这样，当推理出现故障时，checkpoint 重新启动时，直接从状态后端中拿到模型的 value 值。

三面总监面

面试官：1 Flink 集群为什么要部署到 K8S 上面？上云的好处是什么？

考察 K8S 的优缺点

回答：目前将组件进行容器化已经成为当前的一个趋势，将 Flink 集群部署到 K8S 上可以实现资源的合理利用,同时 k8s 是一个开源的容器集群管理系统，可以实现容器集群的自动化部署、自动扩缩容、维护等功能，具备很多特点：

1、故障迁移：当某一个 node 节点关机或挂掉后，node 节点上的服务会自动转移到另一个 node 节点上，这个过程所有服务不中断。这是 docker 或普通云主机是不能做到的

2、资源调度：当 node 节点上的 cpu、内存不够用的时候，可以扩充 node 节点，新建的 pod 就会被 kube-schedule 调度到新扩充的node节点上。

3、资源隔离：创建开发、运维、测试三个命名空间，切换上下文后，开发人员就只能看到开发命名空间的所有 pod，看不到运维命名空间的 pod，这样就不会造成影响，互不干扰。

面试官：2 Flink 任务部署到 K8S 和部署到 yarn 上面的区别是什么？有哪些优点？

Flink on k8s 相比 yarn 的优势

更好的资源与网络的隔离性、安全性，更适合多租户
更容易实现与online service的混合部署，提升集群利用率
可以受益 K8S 丰富的生态系统，例如：ETCD，Prometheus.

以后将 Flink 部署到 K8S 会成为一个趋势，K8S 可以更好的监控到集群资源使用率，从而动态实现扩缩容，降低资源成本。

面试官：3 Flink 集群的资源使用率是多少？资源使用率过低的话，K8S 应该怎么处理？

回答：主要分离线作业资源使用率和流式作业资源使用率。根据具体公司的情况回复，比如：离线资源使用达到60%，流式作业资源使用达到40%。
流式资源使用率过低，这时 K8S 会根据自动扩缩容机制，减少 Pod 节点,降低负载，降低 CPU，资源的利用率。

面试官：4 那负载降低时，有没有遇到什么问题？

回答：我们是采用 Flink 的响应模式 (Reactive Mode)，将 Flink 集群部署到 K8S 中的,然后 autoscaler 会监控 K8S 中 pods 的 CPU 负载。监控的指标主要有：

对 kafka 消费延迟监控
对 Flink 每秒吞吐量监控
对每个 TaskManager 的 CPU 负载监控
对 TaskManager 数量监控。

在生产环境中，的确遇到过资源负载降低时，导致 Flink 监控出现毛刺等现象。如：TaskManager 数量某些情况下并没有很好的追随吞吐量曲线的变化。导致我们浪费了大量配置的 TaskManager 资源。

原因分析：

在 Flink 中，JobManager 会定期发送心跳信息给 TaskManager 来确定 TaskManager 是否还存活。默认心跳的发送频率是 50s 一次。这个默认值看上去像是很高，但是在高负载情况下可能出现网络波动、gc 停滞或其他情况导致心跳数据发送延迟。

但是，50s 默认值在我们的生产环境带来了一些问题。

当 K8S autoscaler 监控到 CPU 负载降低时，会降低 TaskManager 数量，停止 TaskManager 实例。随之 Flink 会因为数据传输层（data transport layer）与这些 TaskManager 失联而立即停止数据处理，而且 JobMaster 将会等待 50s 后才会认定 TaskManager 真正被关闭了。

在 JobManager 等待期间，吞吐量会降到 0，数据也会因此积压在 Kafka 中（消费延迟看板出现毛刺的原因）。当 Flink 重新运行起来后会对积压数据进行消费，从而造成了 CPU 负载的升高。autoscaler 监控到负载变化后会分配更多的 TaskManager，因此造成了 TaskManager 的浪费。

我们观察发现这种情况只会发生在缩容的场景中，因为缩容更加容易引起不稳定的情况的发生相比于扩容。扩容时，TaskManager 资源增加，数据停止处理仅发生在任务重启阶段（重启动作很快，仅会造成 Kafka 少量数据积压）；然而缩容时，数据停止处理的时间大约 50s。

我们通过调整 heartbeat.timeout = 8s 来缓解了以上问题的发生。

小伙伴面试完之后，58 集群总监就实时给他反馈了情况，3面技术面都通过~

以上就是 58 集团 2、3 面所问的重点问题，其中涉及到一些业务场景方面的问题，但回答的套路是可以总结的。

作者：在IT中穿梭旅行
来源：https://mp.weixin.qq.com/s/AnAGlk-1vsVArav0nuAl9w

最新经典文章，欢迎关注公众号

图文精华

58同城大数据开发复试面试经验分享(附答案)

最佳新人

热心会员

推荐 /2