ApacheSparkBook
ApacheSparkBook copied to clipboard
大神您好,有个问题能否解答下
spark,父子RDD分区是一对多的关系,有没有可能是窄依赖???如果有可能,能否举个例子呢
为啥shuffle必须要落盘,直接在内存中不能进行数据重新分布吗???
- 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
- 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。
- 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
- 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。
- 那个是多对多,单纯的一对多有没有可能是窄依赖呢
- 见图3.2中的ManyToManyDependency,以及书中对应的解释,举例见P71 cartesian()的描述。
- 为了避免内存溢出和错误容忍,详见6.2.4节和8.3.2中的(1)。
大神,我发现,即使是1对一的情况下,也有可能是宽依赖,比如使用了coalesce(1,true)。所以我感觉您的那个子RDD的分区不完全依赖父RDD分区的定义也是不严谨的。。。 所以我要问的是,划分宽窄依赖的标准到底是啥啊???头大
大神,能加你微信吗,想跟您交流一下,有偿的