Liwei Lin

Results 61 comments of Liwei Lin

@tsface 主要看下 cache 的内存占用情况。如果一个 partition 被 cache() 后由于内存压力又 drop 掉了,那么需要使用的时候就会再次计算,反而比之前多了许多计算量。如果内存压力大,可以试下 persist(MEMORY_AND_DISK_SER)。 另外,Spark 的版本是?1.6 与 1.5 相比,内存管理上有些差别。

@klion26 当时回复了 merged,但是忘记了执行 merge 操作 :-D 现已 merge; thanks!

@ouyangshourui 是的,确实应该是 executor 3。可否提一个 Pull Request 修正下这个 typo?感谢!

@ouyangshourui Merged your PR into master. Good job & thanks !

@pzz2011 这里是说,driver 端在构造 RDD 的时候,指定其并行度为 x -- 即指定 x 个 partition -- 将来在 executor 端,1 个 partition 会有 1 个并行度来负责处理。 因为 Receiver 有 x 个,而我们希望每个 Receiver 有 1 个并行度来处理,所以最开始在分发 Receiver...

@pzz2011 没太明白你的问题。是说想让 Streaming 的程序各个 Batch 之间产生依赖?比如后一个 Batch 依赖前一个 Batch?

@pzz2011 这个不难啊,因为 Spark Streaming 的 cache(), persist() 数据存储完全是来自 Spark Core 的,而且对计算任务的调度和下发也是 Spark Core 的 DAGScheduler 来完成的,会朝着 data locality 最好的计算方式去调度。

@pzz2011 OK, 大致明白你的意思了。这个问题在 Spark 生态系统里,跟 Spark Streaming 部分关系不大,主要还是跟 Spark Core 部分关系比较大。 比如假设我们有 A={a1, a2, a3}, B={b1, b2}, C ={c1, c2, c3, c4, c5} 三种类型的数据,现在有 3 个节点,对计算最好的分布如下:节点 1:[a1, b1, c1];节点 2:[a2,...

@pzz2011 哪里有 ClassTag?贴些示例代码?

@pzz2011 这些 ClassTag 都是源码里的东西,也是合理的使用,不应该去掉,还是适应着看吧。