SparkInternals
SparkInternals copied to clipboard
一个问题,就是Spark是不是能把所有传入作为参数的函数都分布式进行计算?对吗?
传入一个函数f,Spark会把数据分块,分到各个Worker节点,每个Worker节点都计算这个函数f,那么数据又如何 汇总/归并 ?
一些action(),比如collect(), count()之类会将每个worker节点上task的计算结果收集到driver端,并进行计算。