Lijie Xu
Lijie Xu
@gfjiangly The same problem with you. I think current version cannot work for multiple GPUs. The reason is that `IterableDataset` (here it is `TFRecordDataset`) cannot work with DistributedSampler in PyTorch....
@benchpress100 Fault-tolerance在我新出的书中有写https://item.jd.com/12924768.html 调度暂时没有写作计划
多谢指出,还有几个问题,等过些天整理文档的时候再请教你
计算逻辑在RDD.compute(),计算过程是pipeline的,你可以通过finalRDD.debug()看到RDD的依赖图,建议你仔细看下LogicalPlan和PhysicalPlan那两章就明白了
@isplendid 因为combineByKey中的createCombiner()只会作用于相同key的第一个record。在本例中,处理时发现key=2没有被处理过,所以使用createCombiner()将b转换为b1,得到,保存在内存中。接下来处理,由于key=2已经被处理过(在内存中),所以使用mergeValue()来处理,也就是mergeValue(, ) => 。 可以使用下面的示例程序来验证: ```scala import org.apache.spark.sql.SparkSession object CombineByKeyExample { def main(args: Array[String]): Unit = { val spark = SparkSession .builder .appName("combine by key example") .master("local[2]") .getOrCreate() val...
@swordspoet 多谢指出,下次印刷时会进行更正。
@zeahoo 多谢指出,下次印刷时会进行更正。
> P74:“Key是Int类型,并从[0, numPartitions)中随机生成,……”。其中Key的范围是不是都应该是闭区间,不然就对不上P73图(2)中展示的Key——若不包含2,那么随机生成的整型如何得到2,接下来的record的Key+1又怎么得到3? 感谢指出,目前代码实现是[0, numPartitions),生成的key应该是[0, 2),图中的key应该都减去1。
@wangdxh 我这里只有第一版的,我把85页、86页、87页都拍了照发在这里:   
@ycli12 你好,书里对这个过程进行了抽象,这个过程抽象看就是broadcast,只是实现方式是闭包传输,如果参数更大一些,闭包传输不了,就需要单独进行broadcast。