Hadoop 面试题目录

HDFS 的架构是怎样的？

推荐答案

HDFS（Hadoop Distributed File System）的架构是一个主从架构，主要由以下几个组件组成：

NameNode（主节点）：
- 负责管理文件系统的命名空间（Namespace），包括文件和目录的元数据（如文件名、权限、块位置等）。
- 维护文件系统的树状结构，并记录每个文件的块信息。
- 处理客户端的读写请求，并协调DataNode的块操作。
DataNode（从节点）：
- 负责存储实际的数据块（Block）。
- 定期向NameNode发送心跳信号和块报告，以确认其状态和块信息。
- 根据NameNode的指令执行块的创建、删除和复制等操作。
Secondary NameNode（辅助节点）：
- 不是NameNode的备份，而是帮助NameNode进行元数据的合并和检查点（Checkpoint）操作。
- 定期从NameNode获取元数据的快照，并将其合并到新的命名空间镜像中，以减少NameNode的启动时间。
客户端（Client）：
- 与NameNode和DataNode交互，执行文件的读写操作。
- 通过NameNode获取文件的元数据，然后直接与DataNode进行数据传输。

本题详细解读

NameNode

NameNode是HDFS的核心组件，负责管理文件系统的元数据。它维护了两个关键的数据结构：

FsImage：存储文件系统的命名空间和块映射表的完整快照。
EditLog：记录对文件系统的所有修改操作（如创建、删除文件等）。

NameNode将这些元数据存储在内存中，以便快速响应客户端的请求。为了确保数据的可靠性，NameNode会将FsImage和EditLog持久化到磁盘上。

DataNode

DataNode是HDFS中存储实际数据的节点。每个DataNode负责管理多个数据块，这些数据块通常大小为128MB或256MB（可配置）。DataNode会定期向NameNode发送心跳信号，以确认其存活状态，并报告其存储的块信息。

Secondary NameNode

Secondary NameNode的主要任务是帮助NameNode进行元数据的合并和检查点操作。它会定期从NameNode获取FsImage和EditLog，并将它们合并成一个新的FsImage。这个过程可以减少NameNode在启动时需要加载的元数据量，从而加快启动速度。

客户端

客户端是用户与HDFS交互的接口。当客户端需要读取或写入文件时，它会首先与NameNode通信，获取文件的元数据（如块的位置信息）。然后，客户端直接与相应的DataNode进行数据传输，而不需要经过NameNode。这种设计减少了NameNode的负载，并提高了系统的吞吐量。

数据复制与容错

HDFS通过数据复制机制来保证数据的可靠性和容错性。默认情况下，每个数据块会被复制到三个不同的DataNode上。如果某个DataNode发生故障，NameNode会检测到并启动块的重新复制，以确保数据的冗余度。

总结

HDFS的架构设计旨在处理大规模数据存储和高吞吐量的数据访问。通过主从架构、数据复制和元数据管理，HDFS能够提供高可靠性、高可用性和高性能的分布式文件系统服务。

上一篇： HDFS 的设计目标是什么？

下一篇： HDFS 中 NameNode 的作用是什么？

纠错
反馈