Hadoop 面试题目录

HDFS 中的 Block 是什么？

推荐答案

在 HDFS（Hadoop Distributed File System）中，Block 是文件存储的基本单元。HDFS 将大文件分割成固定大小的块（Block），默认大小为 128MB（Hadoop 2.x 及以后版本）或 64MB（Hadoop 1.x 版本）。这些 Block 被分布式地存储在集群中的多个 DataNode 上，以实现高吞吐量的数据访问和容错性。

本题详细解读

1. Block 的作用

数据分片：HDFS 将大文件分割成多个 Block，每个 Block 可以独立存储和处理，便于并行计算和分布式存储。
容错性：每个 Block 会被复制多份（默认是 3 份），存储在不同的 DataNode 上。即使某个 DataNode 发生故障，数据仍然可以从其他副本中恢复。
高效存储：Block 的大小可以根据实际需求进行配置，较大的 Block 大小可以减少元数据的管理开销，提高存储效率。

2. Block 的存储

DataNode：Block 存储在 DataNode 上，DataNode 是 HDFS 集群中的工作节点，负责实际的数据存储和读写操作。
NameNode：NameNode 是 HDFS 的主节点，负责管理文件系统的命名空间和 Block 的元数据信息，如 Block 的位置、副本数等。

3. Block 的读写

写操作：当客户端向 HDFS 写入文件时，文件会被分割成多个 Block，并按照配置的副本数复制到不同的 DataNode 上。
读操作：当客户端从 HDFS 读取文件时，NameNode 会提供文件对应的 Block 位置信息，客户端直接从相应的 DataNode 读取数据。

4. Block 的配置

Block 大小：可以通过 dfs.blocksize 参数配置 Block 的大小，默认值为 128MB。较大的 Block 大小适合存储大文件，而较小的 Block 大小适合存储小文件。
副本数：可以通过 dfs.replication 参数配置 Block 的副本数，默认值为 3。增加副本数可以提高数据的可靠性，但也会增加存储开销。

5. Block 的管理

Block 报告：DataNode 会定期向 NameNode 发送 Block 报告，汇报当前存储的 Block 信息。
Block 恢复：当某个 DataNode 发生故障时，NameNode 会检测到 Block 副本的缺失，并启动复制过程，将缺失的 Block 复制到其他 DataNode 上。

通过以上机制，HDFS 能够高效地存储和管理大规模数据，并提供高可靠性和高吞吐量的数据访问能力。

上一篇： HDFS 中 DataNode 的作用是什么？

下一篇： HDFS 中 Block 的默认大小是多少？

纠错
反馈