Pinjia He

Results 3 issues of Pinjia He

您好,我看完了您的这个 project,受益匪浅,感谢!有一点建议希望其能对继续改善这个 project 有帮助。 如您能在每个 chapter 的最后,列出相关的源代码文件的名称或链接,或是简单讲讲要看那些个源代码文件,那对一些想继续深入了解 spark 的人一定很有帮助。 还想请问一下,对于 checkpoint 这块,如果我想深入了解其实现机制,需要看哪些源代码文件?

在 “2. groupByKey(numPartitions)” 小节的文字解释中: “result = result ++ record.value” 可能多打了个加号。

这一段提到 “比如 partition 99 里面只含有 9 个 records”。请问为什么 partition 99 里面有 9 个 records? 看前面提供的代码,在 flatMap 运行中进行初始化的时候,每个 partition 里应该是有 numKVPairs 个,也就是 10000 个 records. 这里说 9 个 records 是因为经过了 flatMap...