CoolplaySpark
CoolplaySpark copied to clipboard
《2.1 JobScheduler, Job, JobSet 详解.md》讨论区
这里是 《2.1 JobScheduler, Job, JobSet 详解.md》 讨论区。
如需要贴代码,请复制以下内容并修改:
public static final thisIsJavaCode;
val thisIsScalaCode
谢谢!
文中说:// 完整代码可见本文最后的附录 在哪里看呢? 文中“能够同时在处理的 batch 有 10 / 2 = 5 个”,不理解为什么是5个。
@zhengzhou-spark 因为有两个output,所以产生了两个job, 每个job都要一个线程来运行,这样一来一个批次的数据需要两条线程来运行,所以10个线程可以并发处理5个批次的数据。
你好,请问 文中提到的:// 完整代码可见本文最后的附录 在哪里看呢?
@zhengzhou-spark @JudeLmin
// 完整代码可见本文最后的附录
代码已经更新到原文附录,thanks!
为什么说“在 Spark Streaming 程序在 ssc.start() 开始运行时,会生成一个 JobScheduler 的实例,并被 start() 运行起来”呢?我看到的2.10版本里StreamingContext中scheduler的定义是: private[streaming] val scheduler = new JobScheduler(this) 没有lazy,那么它应该是在streamingContext初始化的时候就生成了吧。
@AntikaSmith
确实之前的表述有问题,也确实是 没有lazy,那么它应该是在streamingContext初始化的时候就生成了吧
这样的。I'm fixing it -- thanks for pointing this out!
另外如果没加 Streaming 交流群的话,请加下?
@lw-lin
嗯,入群了。
job的产生和提交都是在driver端,计算任务是如何发布到worker的呢?
请问文章中以下两种表述方式,应该使用哪种?
`RDD` DAG
`RDD DAG`
涉及 2.1 及 2.2
@lw-lin 加了iRobot,没有等到入群邀请,大佬能否发一下!
@lw-lin 请问一下,spark.streaming.concurrentJobs参数没有在官网上找到,您知道在哪里吗? 目前我知道的相关路径:http://spark.apache.org/docs/2.3.0/configuration.html#spark-streaming