推荐答案
RDD 的全称是 Resilient Distributed Dataset。
本题详细解读
RDD(Resilient Distributed Dataset)是 Spark 中最基本的数据抽象,代表一个不可变、可分区的元素集合,可以并行操作。RDD 具有以下特性:
- Resilient(弹性):RDD 具有容错性,能够在节点失败时自动恢复。
- Distributed(分布式):RDD 的数据分布在集群的多个节点上,支持并行计算。
- Dataset(数据集):RDD 是一个包含多个数据元素的集合,可以是任何类型的数据。
RDD 是 Spark 的核心数据结构,支持多种操作,如转换(Transformation)和行动(Action),能够高效处理大规模数据集。