CoolplaySpark icon indicating copy to clipboard operation
CoolplaySpark copied to clipboard

酷玩 Spark: Spark 源代码解析、Spark 类库等

Results 35 CoolplaySpark issues
Sort by recently updated
recently updated
newest added

@ouyangshourui, @keepsimplefocus, @jacksu, @klion26, @zzcclp, @tsface, @endymecy, @wongxingjun, @luphappy, @pzz2011, @TopSpoofer Hi all,大家在《Spark Streaming 源码解析系列》github 上有过挺多交流,让我们搞个微信群?:-) 麻烦各位先加我个人微信,我来把各位拉到群里,thanks! ![个人微信](https://cloud.githubusercontent.com/assets/15843379/19549317/42077f28-96d6-11e6-9941-51b1fce1b011.PNG)

这里是 [《0.1 Spark Streaming 实现思路与模块概述.md》](../blob/master/Spark%20Streaming%20源码解析系列/0.1%20Spark%20Streaming%20实现思路与模块概述.md) 讨论区。 如需要贴代码,请复制以下内容并修改: ```java public static final thisIsJavaCode; ``` ```scala val thisIsScalaCode ``` 谢谢!

我查看了很多文章,比如以前的直接拿到RDD的offsetRange属性等,但是往往在watermark情况下,我们都是转换过后的Dataset了,请问这种情况我们如何保证或者说如何自维护spark structured streaming当前清洗完的数据的最新的offset?

add README.md

嗨, 大佬, 我有一个问题. 当一个jobSet, 有部分job已经执行成功, 此时, driver端异常退出. 那么, 恢复后, 针对这个jobSet, 还会执行那些已经成功的job吗? 如果不执行, 那么在源码中, 是如何体现的? 如果执行, 那么肯定就不遵守exactly once语义了, 那么我们平时说的streaming的exactly once语义, 又是如何理解呢?

你好 @lw-lin : 我们在使用Streaming的时候,发现Executor运行一段时间(1小时左右)后,整个程序就会失败,查看CPU,内存,网络,GC情况,都处于安全状态。 **_error: java.lang.Exception: Could not compute split, block input-0-1416573258200 not found_** 最开始的Storage策略配置的是Memory_ONLY,当数据量激增的时候,会报这个错误,所以调整Storage的策略是Memory_And_DIsk,但是程序运行一段时间还是会报这个错误。同时,会抛出Executor和ReceiverTracker的通信超时(120s)。 请问这个有什么好的排查方法吗,谢谢。 ps:部署模式yarn-cluster

如下: DStream 和 RDD 的关系 既然 DStream 是 RDD 的模板,而且 DStream 和 RDD 具有相同的 transformation 操作,比如 **map(), filter(), reduce()** ……等等(正是这些相同的 transformation 使得 DStreamGraph 能够忠实记录 RDD DAG 的计算逻辑),那 RDD 和 DStream...