Liwei Lin

Results 63 comments of Liwei Lin

Thanks for the patch @garlicccbulb ! I'll look into this and run some tests. Could you add a Parquet JIRA issue for this and add it to this PR's summary?...

@zqhxuyuan Spark 的 stage 和 stage 是按照前后顺序来下发的,所以先有左上和左下的 RDD 分别计算完成,再有右边的 RDD 通过 iterator 的方式由后面触发同一个 stage 里前面的元素的计算。Hope this helps!

@Angryrou good catch. 我翻一下 git blame,5 年前的时候 core 和 streaming 都没有特别设置 mapSideCombine, 参见 streaming 的[这里](https://github.com/apache/spark/blame/4db3a967669a53de4c4b79b4c0b70daa5accb682/streaming/src/main/scala/spark/streaming/PairDStreamFunctions.scala#L19)。然后 4 年前,core 这里做了修改,[设置了 mapSideCombine = false](https://github.com/apache/spark/commit/6738178d0daf1bbe7441db7c0c773a29bb2ec388), 但没有同时修改 streaming 这边。所以就这样了。 你可以给 streaming 这边提个 PR,fix 下 :)