ycli12 comments

Results 7 comments of


                                            ycli12

第三章《Spark 逻辑处理流程》勘误与修改建议

P61，页面中间那段：在性能上，相比groupByKey()、reduceByKey()可以在Shuffle之前使用func... 、应该改成逗号

第五章《迭代型 Spark 应用》勘误与修改建议

你好，P129页的5.2.3章节中，有一句话，“每轮迭代开始时，Spark首先将w广播到所有task中”，在5.2.2章节中给出的代码样例实际上没有广播，只是放到lambda闭包然后跟随Task序列化发送到Executor，每个Task都有一份

框架执行空间不足时，可以向数据缓存空间借用空间，但至少要保证数据缓存空间具有约50%左右的空间？

在后面还有一句话，“在框架执行时借走的空间不会归还给数据缓存空间，原因是难以代码实现。”，我看到了网上的一段Spark官方的会议[视频](https://www.youtube.com/watch?v=dPHrykZL8Cg&list=RDCMUCRzsq7k4-kT-h3TDUBQ82-w&index=3)的11:21处，演讲者说到还有一个原因是，框架执行内存spill到磁盘的内存一定会被重新加载回内存（在进行最后的聚合/排序的时候），而缓存不一定会被用到，因此框架执行空间不归还内存是因为框架执行内存用法在一般情况下更“划算”，书籍后面还可以补充多这一点的原因。

ycli12

第三章《Spark 逻辑处理流程》勘误与修改建议

第三章《Spark 逻辑处理流程》勘误与修改建议

第五章《迭代型 Spark 应用》勘误与修改建议

框架执行空间不足时，可以向数据缓存空间借用空间，但至少要保证数据缓存空间具有约50%左右的空间？

框架执行空间不足时，可以向数据缓存空间借用空间，但至少要保证数据缓存空间具有约50%左右的空间？

NarrowDependency中的ManyToManyDependency不会造成重复计算吗？

NarrowDependency中的ManyToManyDependency不会造成重复计算吗？