Spark 的 Stage 是如何划分的？-JavaScript中文网-JavaScript教程资源分享门户

Spark 的 Stage 是如何划分的？

本题详细解读

1. Stage 划分的基本原理

在 Spark 中，Job 是由一系列的 RDD 转换操作组成的。这些操作可以分为两类：Transformations 和 Actions。Transformations 是惰性操作，只有在遇到 Actions 时才会真正执行。当 Spark 遇到一个 Action 操作时，它会根据 RDD 的依赖关系图（DAG）来划分 Stage。

2. 宽依赖与窄依赖的区别

宽依赖：宽依赖是指一个父 RDD 的分区数据会被多个子 RDD 的分区所依赖。这种情况下，Spark 必须进行 Shuffle 操作，将数据重新分区并发送到不同的节点上。因此，Spark 会在宽依赖处划分 Stage。
窄依赖：窄依赖是指一个父 RDD 的分区数据只会被一个子 RDD 的分区所依赖。这种情况下，Spark 不需要进行 Shuffle 操作，数据可以在同一个节点上进行处理。因此，Spark 不会在窄依赖处划分 Stage。

3. Stage 的类型

ShuffleMapStage：这种 Stage 的主要任务是准备 Shuffle 数据。它的输出会被写入到磁盘，供下一个 Stage 使用。ShuffleMapStage 通常出现在宽依赖之前。
ResultStage：这种 Stage 是 Job 的最后一个 Stage，它会产生最终的输出结果。ResultStage 通常出现在 Action 操作之后。

4. Stage 划分的示例

假设我们有一个简单的 Spark Job，包含以下操作：

val rdd1 = sc.parallelize(1 to 100)
val rdd2 = rdd1.map(_ * 2)
val rdd3 = rdd2.filter(_ > 100)
val rdd4 = rdd3.reduceByKey(_ + _)
val result = rdd4.collect()

在这个例子中：

rdd1 到 rdd2 是窄依赖，不会划分 Stage。
rdd2 到 rdd3 是窄依赖，不会划分 Stage。
rdd3 到 rdd4 是宽依赖，因为 reduceByKey 操作需要 Shuffle 数据。因此，Spark 会在这里划分 Stage。
rdd4 到 result 是 Action 操作，会产生一个 ResultStage。

最终，这个 Job 会被划分为两个 Stage：一个 ShuffleMapStage 和一个 ResultStage。

纠错
反馈