CoolplaySpark icon indicating copy to clipboard operation
CoolplaySpark copied to clipboard

《1.2 DStream 生成 RDD 实例详解.md》讨论区

Open lw-lin opened this issue 8 years ago • 15 comments

这里是 《1.2 DStream 生成 RDD 实例详解.md》 讨论区。

如需要贴代码,请复制以下内容并修改:

public static final thisIsJavaCode;
val thisIsScalaCode

谢谢!

lw-lin avatar Dec 05 '15 12:12 lw-lin

时序图

这个图没有把C依赖B描述出来, C可能是TransformedDStreamUnionDStream

Update: 上述内容已改正,谢谢。

marlin5555 avatar Dec 14 '15 03:12 marlin5555

@marlin5555 Good catch! 感谢指出,稍后我就改改 :-)

Update: 已改正,thanks!

lw-lin avatar Dec 14 '15 05:12 lw-lin

”每个新 batch 生成时,都会调用 DStreamGraph.generateJobs(time),也进而出发我们之前讨论这个 Job 生成过程,周而复始。“有错别字“出发”,应该是“触发”

Update: 上述内容已改正,thanks!

endymecy avatar May 11 '16 06:05 endymecy

@endymecy Would you like to issue a PR to fix? Thanks!

lw-lin avatar May 11 '16 06:05 lw-lin

1.imgs/010.png 误写成 1.imgs/010.jpg 导致图片显示不出来

Update: 上述内容已改正,thanks!

klion26 avatar May 17 '16 13:05 klion26

@klion26 Would you like to issue a PR to fix? Thanks!

lw-lin avatar May 18 '16 05:05 lw-lin

@lw-lin 请问Spark Streaming为了避免重复计算,对DStream做一次cache以后,为什么性能下降很厉害?在使用cache操作的时候有什么地方需要注意吗?

tsface avatar Jun 26 '16 01:06 tsface

@tsface 主要看下 cache 的内存占用情况。如果一个 partition 被 cache() 后由于内存压力又 drop 掉了,那么需要使用的时候就会再次计算,反而比之前多了许多计算量。如果内存压力大,可以试下 persist(MEMORY_AND_DISK_SER)。 另外,Spark 的版本是?1.6 与 1.5 相比,内存管理上有些差别。

lw-lin avatar Jul 01 '16 05:07 lw-lin

这个我已经提 PR 了,貌似还没有 merge

2016-07-04 15:15 GMT+08:00 Xingjun Wang [email protected]:

后面几行也是如此,所以我们如果用 DStream DAG 图来表示之前那段 quick example 的话,就是这个样子:

这儿有一个图没有,应该是md写错了?.png,不是.jpg?

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/lw-lin/CoolplaySpark/issues/3#issuecomment-230221285, or mute the thread https://github.com/notifications/unsubscribe/ABXA1-8zQ7uhIv9rluUmOlFxOeEFKN65ks5qSLL7gaJpZM4GvavE .

Blog:http://www.klion26.com GTalk:qcx978132955 一切随心

klion26 avatar Jul 05 '16 07:07 klion26

@klion26 当时回复了 merged,但是忘记了执行 merge 操作 :-D 现已 merge; thanks!

lw-lin avatar Jul 07 '16 03:07 lw-lin

关于ForEachDStream 的 compute(time) 实现部分, 该子类的 compute(time) 实现是 None. 所以下面的 所以在 compute(time) 的具体实现里,就很简单了: 这部分是不是要做下说明, 并改为解释 generateJob(time) 为何要覆盖基类中的方法.

runitao avatar Feb 19 '17 03:02 runitao

如@runitao所说,ForEachDStream的compute实现是None,是因为这是最后一个DStream,不会有其他的DStream依赖于他,所以没有compute RDD的必要了吧

aoxiangcao avatar Nov 22 '17 01:11 aoxiangcao

spark streaming的job会涉及到DAGScheduler吗? 似乎 没有看到job的stage是如何划分的, job直接扔到线程池去执行了.

chucheng92 avatar Feb 25 '18 13:02 chucheng92

如果理解没有问题的话。spark streaming 执行的是 job,job 执行会调用到 dagscheduler,由 dagscheduler 划分 stage

2018年2月25日星期日,Ryan Tao [email protected] 写道:

spark streaming的job会涉及到DAGScheduler吗? 似乎 没有看到job的stage是如何划分的, job直接扔到线程池去执行了.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/lw-lin/CoolplaySpark/issues/3#issuecomment-368307586, or mute the thread https://github.com/notifications/unsubscribe-auth/ABXA1xDpflwCnR_qg3GfYKyJMyzzUHTMks5tYVnpgaJpZM4GvavE .

-- Blog:http://www.klion26.com GTalk:qcx978132955 一切随心

klion26 avatar Feb 25 '18 14:02 klion26

@klion26 嗯嗯 action操作最终会触发到sparkcontext的runjob方法,刚刚看了下源码 :smile:

chucheng92 avatar Feb 25 '18 15:02 chucheng92