Lijie Xu comments

Results 41 comments of


                                            Lijie Xu

How to load data in multiple processes?

@gfjiangly The same problem with you. I think current version cannot work for multiple GPUs. The reason is that `IterableDataset` (here it is `TFRecordDataset`) cannot work with DistributedSampler in PyTorch....

还会继续更新吗？最后的两个章节？

@benchpress100 Fault-tolerance在我新出的书中有写https://item.jd.com/12924768.html 调度暂时没有写作计划

hadoop distributedcache 应该是共享的

多谢指出，还有几个问题，等过些天整理文档的时候再请教你

初级问题，就是文章里是有很多RDD的依赖关系图，但是我找不到这些plan怎么在worker执行的相关代码？多谢！

计算逻辑在RDD.compute()，计算过程是pipeline的，你可以通过finalRDD.debug()看到RDD的依赖图，建议你仔细看下LogicalPlan和PhysicalPlan那两章就明白了

第三章《Spark 逻辑处理流程》勘误与修改建议

@isplendid 因为combineByKey中的createCombiner()只会作用于相同key的第一个record。在本例中，处理时发现key=2没有被处理过，所以使用createCombiner()将b转换为b1，得到，保存在内存中。接下来处理，由于key=2已经被处理过（在内存中），所以使用mergeValue()来处理，也就是mergeValue(, ) => 。可以使用下面的示例程序来验证： ```scala import org.apache.spark.sql.SparkSession object CombineByKeyExample { def main(args: Array[String]): Unit = { val spark = SparkSession .builder .appName("combine by key example") .master("local[2]") .getOrCreate() val...

第三章《Spark 逻辑处理流程》勘误与修改建议

@swordspoet 多谢指出，下次印刷时会进行更正。

第三章《Spark 逻辑处理流程》勘误与修改建议

@zeahoo 多谢指出，下次印刷时会进行更正。

第三章《Spark 逻辑处理流程》勘误与修改建议

> P74：“Key是Int类型，并从[0, numPartitions)中随机生成，……”。其中Key的范围是不是都应该是闭区间，不然就对不上P73图(2)中展示的Key——若不包含2，那么随机生成的整型如何得到2，接下来的record的Key+1又怎么得到3？感谢指出，目前代码实现是[0, numPartitions)，生成的key应该是[0, 2)，图中的key应该都减去1。

第三章《Spark 逻辑处理流程》勘误与修改建议

@wangdxh 我这里只有第一版的，我把85页、86页、87页都拍了照发在这里： ![WechatIMG234](https://user-images.githubusercontent.com/1720656/105183735-7f473980-5b69-11eb-992b-84717d719e7f.jpeg) ![WechatIMG235](https://user-images.githubusercontent.com/1720656/105183750-83735700-5b69-11eb-869c-668237e957e6.jpeg) ![WechatIMG236](https://user-images.githubusercontent.com/1720656/105183766-866e4780-5b69-11eb-9bae-33353c69cbc2.jpeg)

第五章《迭代型 Spark 应用》勘误与修改建议

@ycli12 你好，书里对这个过程进行了抽象，这个过程抽象看就是broadcast，只是实现方式是闭包传输，如果参数更大一些，闭包传输不了，就需要单独进行broadcast。