Liwei Lin comments

Results 63 comments of


                                            Liwei Lin

《1.2 DStream 生成 RDD 实例详解.md》讨论区

@tsface 主要看下 cache 的内存占用情况。如果一个 partition 被 cache() 后由于内存压力又 drop 掉了，那么需要使用的时候就会再次计算，反而比之前多了许多计算量。如果内存压力大，可以试下 persist(MEMORY_AND_DISK_SER)。另外，Spark 的版本是？1.6 与 1.5 相比，内存管理上有些差别。

《1.2 DStream 生成 RDD 实例详解.md》讨论区

@klion26 当时回复了 merged，但是忘记了执行 merge 操作 :-D 现已 merge; thanks!

《3.1 Receiver 分发详解.md》讨论区

@ouyangshourui 是的，确实应该是 executor 3。可否提一个 Pull Request 修正下这个 typo？感谢！

《3.1 Receiver 分发详解.md》讨论区

@ouyangshourui Merged your PR into master. Good job & thanks !

《3.1 Receiver 分发详解.md》讨论区

@pzz2011 这里是说，driver 端在构造 RDD 的时候，指定其并行度为 x -- 即指定 x 个 partition -- 将来在 executor 端，1 个 partition 会有 1 个并行度来负责处理。因为 Receiver 有 x 个，而我们希望每个 Receiver 有 1 个并行度来处理，所以最开始在分发 Receiver...

《3.1 Receiver 分发详解.md》讨论区

@pzz2011 没太明白你的问题。是说想让 Streaming 的程序各个 Batch 之间产生依赖？比如后一个 Batch 依赖前一个 Batch？

《3.1 Receiver 分发详解.md》讨论区

@pzz2011 这个不难啊，因为 Spark Streaming 的 cache(), persist() 数据存储完全是来自 Spark Core 的，而且对计算任务的调度和下发也是 Spark Core 的 DAGScheduler 来完成的，会朝着 data locality 最好的计算方式去调度。

@pzz2011 OK, 大致明白你的意思了。这个问题在 Spark 生态系统里，跟 Spark Streaming 部分关系不大，主要还是跟 Spark Core 部分关系比较大。比如假设我们有 A={a1, a2, a3}, B={b1, b2}, C ={c1, c2, c3, c4, c5} 三种类型的数据，现在有 3 个节点，对计算最好的分布如下：节点 1：[a1, b1, c1]；节点 2：[a2,...

《3.1 Receiver 分发详解.md》讨论区

@pzz2011 哪里有 ClassTag？贴些示例代码？

《3.1 Receiver 分发详解.md》讨论区

@pzz2011 这些 ClassTag 都是源码里的东西，也是合理的使用，不应该去掉，还是适应着看吧。