Suheng
Suheng
@lw-lin @keepsimplefocus 看到上面你们讨论关于“需要结合比较长一段历史数据进行实时统计”的需求在spark streaming中的mapWithState实现,请问这个方案现在在使用中吗? 另外我有几个问题想请教下 1.如果需求中有比较多的这种去重需求,那对于一天的统计,mapWithState中累积的数据就会随时间线性增加,在一天结束时这个量相当于和做了一个每天定时的批处理数据量是相当的,这对于stateful stream的checkpoint操作是否有比较大的压力? 2.由于mapWithState操作是只对增量数据进行操作,因此每个batch中并不会遍历所有key,这虽然减少运算量,但相比updateStateByKey就不能及时remove掉不需要的数据(比如一天结束时的clean操作),想到过timeout方法,但这样就需要设置超时大于1天,内存和checkpoint冗余量会比较大,这个如何解决? 3.一旦生成"静态的RDD DAG 模板",是不是用户就无法通过在driver侧设置变量等方式改变某个batch时的执行流程了?比如我想每N个batch才执行一次output,我试过在foreachRDD里面使用driver的变量来判断是否要执行输出操作,但我发现只有在实际输出需要执行的那个batch,job才会真正启动计算,期间的数据计算都会堆积在此时才会触发,这种做法是否合理? 这几个问题困扰了好久,希望能解答下,谢谢。
Hi, @7c00 do you have time to review this PR, thanks :)
@pratyakshsharma PR #18441 solved problem on hive-connector which is a legacy read path on hudi datasource, while this PR is aimed at mor read on new hudi-connector way :)
@pratyakshsharma commit msg updated, but I notice one ci test failed by timeout, I think it has nothing business with this PR, can you check that, thanks.
Hi @yzhang1991 I have tried repush several times, but every time the ci show different failing, I think the PR should only relate to hudi connector, and have no idea...
After one more try, all ci test passed, thank you for your help @pratyakshsharma @yzhang1991