Hadoop 面试题目录

HDFS 是什么？

推荐答案

HDFS（Hadoop Distributed File System）是 Hadoop 生态系统中的分布式文件系统，专门设计用于存储和管理大规模数据集。它具有高容错性、高吞吐量和可扩展性，适合在低成本硬件上运行。HDFS 采用主从架构，由 NameNode 和 DataNode 组成，能够高效地处理大数据存储和访问需求。

本题详细解读

HDFS 的核心特点

高容错性：HDFS 通过数据冗余（默认副本数为 3）确保数据安全，即使某个节点发生故障，数据仍可从其他节点恢复。
高吞吐量：HDFS 优化了数据读取性能，适合批量处理大数据任务，而非低延迟的实时访问。
可扩展性：HDFS 可以轻松扩展到数千个节点，支持 PB 级甚至 EB 级数据存储。
低成本硬件支持：HDFS 设计为在普通硬件上运行，降低了存储大规模数据的成本。

HDFS 的架构

HDFS 采用主从架构，主要包括以下两个核心组件：

NameNode：
- 负责管理文件系统的元数据（如文件名、目录结构、文件块位置等）。
- 是 HDFS 的主节点，负责协调客户端对文件的访问。
- 单点故障问题通过 Secondary NameNode 或 HA（高可用）机制缓解。
DataNode：
- 负责存储实际的数据块。
- 定期向 NameNode 发送心跳信号和数据块报告，确保数据块的完整性和可用性。

HDFS 的工作机制

文件分块存储：HDFS 将大文件分割成固定大小的数据块（默认 128MB 或 256MB），并分布存储在不同的 DataNode 上。
数据复制：每个数据块会复制多份（默认 3 份），存储在不同的 DataNode 上，以提高容错性。
读写流程：
- 写操作：客户端将文件分块后，通过 NameNode 获取 DataNode 列表，直接与 DataNode 通信写入数据。
- 读操作：客户端从 NameNode 获取文件块的位置信息，然后直接从 DataNode 读取数据。

HDFS 的应用场景

大数据存储：适合存储海量数据，如日志文件、传感器数据等。
批处理任务：与 MapReduce、Spark 等计算框架结合，用于大数据分析。
数据仓库：作为数据湖的基础存储层，支持多种数据格式和访问方式。

HDFS 的局限性

不适合低延迟访问：HDFS 设计目标是高吞吐量，而非实时访问。
小文件存储效率低：大量小文件会占用 NameNode 内存，影响性能。
单点故障问题：NameNode 是单点故障源，需通过 HA 机制解决。

上一篇： Hadoop 1.x、2.x 和 3.x 版本的主要区别是什么？

下一篇： HDFS 的全称是什么？

纠错
反馈