ApacheSparkBook icon indicating copy to clipboard operation
ApacheSparkBook copied to clipboard

大神您好,有个问题能否解答下

Open zdkzdk opened this issue 3 years ago • 4 comments

spark,父子RDD分区是一对多的关系,有没有可能是窄依赖???如果有可能,能否举个例子呢

为啥shuffle必须要落盘,直接在内存中不能进行数据重新分布吗???

zdkzdk avatar Mar 29 '21 03:03 zdkzdk

  1. 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
  2. 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。

JerryLead avatar Mar 29 '21 06:03 JerryLead

  1. 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
  2. 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。
  1. 那个是多对多,单纯的一对多有没有可能是窄依赖呢

zdkzdk avatar Mar 30 '21 01:03 zdkzdk

  1. 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
  2. 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。

大神,我发现,即使是1对一的情况下,也有可能是宽依赖,比如使用了coalesce(1,true)。所以我感觉您的那个子RDD的分区不完全依赖父RDD分区的定义也是不严谨的。。。 所以我要问的是,划分宽窄依赖的标准到底是啥啊???头大

zdkzdk avatar Mar 30 '21 02:03 zdkzdk

大神,能加你微信吗,想跟您交流一下,有偿的

zdkzdk avatar Mar 30 '21 02:03 zdkzdk