[SS]《4.2 Structured Streaming 之 Watermark 解析》讨论区 #35

lw-lin · 2017-01-01T07:37:51Z

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

lecssmi · 2019-12-22T10:12:19Z

文章里面提到，如果将watermark的生成放到source端，那么会更好。目前最新版本确实已经支持了。
但是，watermark的存在，本身是为了解决window操作中的数据迟到问题。如果在source端就将watermark生成，但是后面没有用到window操作，或者是window操作很少，生成的大量watermark就不会被利用起来，导致性能损失。那为啥在source端生成watermark要好一些呢？不解。

judyzhoubaby · 2019-12-23T12:38:37Z

您好，有一个疑问，文章里提到：“再次强调，(a+) 在对 event time 做 window() + groupBy().aggregation() 即利用状态做跨执行批次的聚合，并且 (b+) 输出模式为 Append 模式或 Update 模式时，才需要 watermark，其它时候不需要；”
但其实只要做基于event_time的filter，例如MapGroupsWithState中的GroupStateTimeout.EventTimeTimeout，也需要使用watermark。

xza-m · 2020-09-17T12:07:57Z

您好如果我需要对当天全部数据进行groupBy+agg聚合操作，此时不使用window但是设置了watermark，会是什么样的情况？我不明白的是window不设置的情况下，会是无限增长的嘛

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SS]《4.2 Structured Streaming 之 Watermark 解析》讨论区 #35

[SS]《4.2 Structured Streaming 之 Watermark 解析》讨论区 #35

lw-lin commented Jan 1, 2017

lecssmi commented Dec 22, 2019

judyzhoubaby commented Dec 23, 2019

xza-m commented Sep 17, 2020

[SS]《4.2 Structured Streaming 之 Watermark 解析》讨论区 #35

[SS]《4.2 Structured Streaming 之 Watermark 解析》讨论区 #35

Comments

lw-lin commented Jan 1, 2017

lecssmi commented Dec 22, 2019

judyzhoubaby commented Dec 23, 2019

xza-m commented Sep 17, 2020