Spark 面试题目录

← RDD 的分区 (Partition) 是什么？ RDD 的窄依赖 (Narrow Dependency) 是什么？ →

RDD 的依赖关系有哪些类型？

推荐答案

RDD 的依赖关系主要有两种类型：

窄依赖（Narrow Dependency）：每个父 RDD 的分区最多被一个子 RDD 的分区所依赖。常见的窄依赖操作包括 map、filter 等。
宽依赖（Wide Dependency）：一个父 RDD 的分区可能被多个子 RDD 的分区所依赖。常见的宽依赖操作包括 groupByKey、reduceByKey 等。

本题详细解读

窄依赖（Narrow Dependency）

窄依赖是指每个父 RDD 的分区最多被一个子 RDD 的分区所依赖。这种依赖关系的特点是：

数据局部性：由于父 RDD 的分区数据只被一个子 RDD 的分区使用，因此可以在同一个节点上进行计算，减少了数据移动的开销。
并行度：窄依赖操作可以在多个分区上并行执行，因为它们之间没有数据依赖关系。
容错性：如果某个分区丢失，只需要重新计算该分区的父分区即可，而不需要重新计算整个 RDD。

常见的窄依赖操作包括 map、filter、flatMap 等。

宽依赖（Wide Dependency）

宽依赖是指一个父 RDD 的分区可能被多个子 RDD 的分区所依赖。这种依赖关系的特点是：

数据移动：由于父 RDD 的分区数据可能被多个子 RDD 的分区使用，因此需要进行数据的 Shuffle 操作，增加了数据移动的开销。
并行度：宽依赖操作通常需要等待所有父分区的数据准备好后才能进行计算，因此并行度较低。
容错性：如果某个分区丢失，可能需要重新计算多个父分区，甚至整个 RDD。

常见的宽依赖操作包括 groupByKey、reduceByKey、join 等。

依赖关系的可视化

在 Spark 的 DAG（有向无环图）中，窄依赖通常表示为一条直线，而宽依赖则表示为一条带有 Shuffle 的线。通过分析 DAG，可以更好地理解 RDD 之间的依赖关系，从而优化任务的执行。

总结

理解 RDD 的依赖关系对于优化 Spark 应用程序的性能至关重要。窄依赖和宽依赖的区别主要体现在数据局部性、并行度和容错性上。通过合理设计 RDD 的转换操作，可以减少宽依赖的出现，从而提高任务的执行效率。

← RDD 的分区 (Partition) 是什么？ RDD 的窄依赖 (Narrow Dependency) 是什么？ →

纠错
反馈