1.窗口是什么时候开始创建的? 2.窗口删除是什么时候? 3.如何延迟窗口删除? 4.Keyed和Non-Keyed Windows有什么不同? 5.在所有的窗口中,哪一个窗口是不基于时间的? 关注最新经典文章,欢迎关注公众号 上一篇: 彻底明白Flink系统学习9:【Flink1.7编程】数据流Transformations介绍2窗口及相关操作 http://www.aboutyun.com/forum.php?mod=viewthread&tid=26469 前面介绍了窗口的一些操作,这里介绍窗口的一些机制。Windows是处理无界流的核心。 Windows将流拆分为有限大小的“桶”,我们可以在其上应用计算。 本文介绍窗口生命周期、Keyed和Non-Keyed Windows的区别及Window Assigners 1.窗口的生命周期 简而言之,只要属于此窗口的第一个元素到达,就会创建一个窗口,当时间(事件或处理时间)超过其结束时间戳加上用户指定的允许延迟时,窗口将被完全删除。 Flink保证仅删除基于时间的窗口而不是其他类型的窗口,例如全局窗口。例如,使用基于事件时间的窗口策略,每5分钟创建一个不重叠(或翻滚)的窗口并允许延迟1分钟,当具有落入该间隔的时间戳的第一个元素到达时,Flink将为12:00到12:05之间的间隔创建一个新窗口,当水位线(watermark)到12:06时间戳时它将删除它。【这里同时我们也可以明白watermark的作用】 此外,每个窗口都有一个Trigger和函数(ProcessWindowFunction,ReduceFunction,AggregateFunction或FoldFunction)。该函数将包含要应用于窗口内容的计算,而触发器指定窗口被认为准备好应用该函数的条件。触发策略可能类似于“当窗口中的元素数量大于4”时,或“当水位线通过窗口结束时”。触发器还可以决定在创建和删除之间的任何时间清除窗口的内容。在这种情况下,清除仅涉及窗口中的元素,而不是窗口元数据。这意味着仍然可以将新数据添加到该窗口。 除上述内容外,还可以指定一个Evictor(参见Evictors),它可以在触发器触发后以及应用函数之前和/或之后从窗口中删除元素。 2.Keyed和Non-Keyed Windows对比 在定义窗口之前,要指定的第一件事是流是否需要Keyed,使用keyBy(...)将无界流分成逻辑的keyed stream。 如果未调用keyBy(...),则表示流不是keyed stream。 对于Keyed流,可以将传入事件的任何属性用作key。 拥有Keyed stream将允许窗口计算由多个任务并行执行,因为每个逻辑Keyed流可以独立于其余任务进行处理。 相同Key的所有元素将被发送到同一个任务。 在Non-Keyed流的情况下,原始流将不会被分成多个逻辑流,并且所有窗口逻辑将由单个任务执行,即并行性为1。 上面我们弄明白了机制,下面从代码来看看 窗口Flink程序的一般结构如下所示。 第一个片段指的是Keyed流,而第二个片段指的是Non-Keyed 流。 可以看出,唯一的区别是对Keyed 流的keyBy(...)调用以及对于Non-Keyed 流成为windowAll(...)的窗口(...)。 代码认识 Keyed Windows 用户代码基本结构如下所示: [Scala] 纯文本查看 复制代码 stream Non-Keyed Windows 用户代码基本结构如下所示: [Scala] 纯文本查看 复制代码 stream 在上面,方括号([...])中的命令是可选的。 这表明Flink允许以多种不同方式自定义窗口逻辑,以便最符合各种需求。 3.Window Assigners 指定是否Keyed流之后,下一步定义窗口分配器(window assigner),窗口分配器定义如何将元素分配给窗口。这是通过在window(...)(对于keyed streams)或windowAll()(对于non-keyed streams)调用中指定所选的WindowAssigner来完成的。 WindowAssigner负责将每个传入元素分配给一个或多个窗口。 Flink带有预定义的窗口分配器,用于最常见的用例,即翻滚窗口,滑动窗口,会话窗口和全局窗口。还可以通过扩展WindowAssigner类来实现自定义窗口分配器。所有内置窗口分配器(全局窗口除外)都根据时间为窗口分配元素,这可以是处理时间或事件时间。 基于时间的窗口具有开始时间戳(包括)和结束时间戳(不包括),它们一起描述窗口的大小。在代码中,Flink在使用基于时间的窗口时使用TimeWindow,该窗口具有查询开始和结束时间戳的方法,以及返回给定窗口的最大允许时间戳的方法maxTimestamp()。 |
|小黑屋|about云开发-学问论坛|社区 ( 京ICP备12023829号 )
GMT+8, 2018-12-19 18:58 , Processed in 0.319845 second(s), 28 queries , Gzip On.