Hadoop 面试题目录

如何排查 Hadoop 集群中的问题？

推荐答案

检查日志文件：查看 Hadoop 集群的日志文件，特别是 NameNode、DataNode、ResourceManager 和 NodeManager 的日志，以获取错误信息。
使用 Hadoop 命令行工具：使用 hdfs dfsadmin -report 和 yarn node -list 等命令检查集群状态。
监控工具：使用 Hadoop 自带的监控工具（如 Hadoop Web UI）或第三方监控工具（如 Ganglia、Nagios）来监控集群的健康状况。
网络检查：确保集群节点之间的网络连接正常，使用 ping 和 telnet 等工具检查网络连通性。
资源使用情况：检查集群的资源使用情况，包括 CPU、内存和磁盘空间，确保没有资源瓶颈。
配置文件检查：检查 Hadoop 配置文件（如 core-site.xml、hdfs-site.xml、yarn-site.xml）是否正确配置。
重启服务：尝试重启有问题的服务（如 NameNode、DataNode、ResourceManager、NodeManager）以解决问题。

本题详细解读

1. 检查日志文件

Hadoop 集群的日志文件通常位于 /var/log/hadoop/ 或 /usr/local/hadoop/logs/ 目录下。通过查看这些日志文件，可以获取详细的错误信息，帮助定位问题。

2. 使用 Hadoop 命令行工具

hdfs dfsadmin -report：显示 HDFS 的状态报告，包括 DataNode 的健康状况和存储使用情况。
yarn node -list：列出所有 NodeManager 的状态，检查是否有节点离线或资源不足。

3. 监控工具

Hadoop Web UI：通过访问 NameNode 和 ResourceManager 的 Web UI（默认端口分别为 50070 和 8088），可以查看集群的实时状态。
第三方监控工具：如 Ganglia 和 Nagios，可以提供更详细的集群监控和报警功能。

4. 网络检查

ping：检查节点之间的网络连通性。
telnet：检查特定端口（如 50070、8088）是否开放，确保服务正常运行。

5. 资源使用情况

CPU 和内存：使用 top 或 htop 命令检查节点的 CPU 和内存使用情况。
磁盘空间：使用 df -h 命令检查磁盘空间使用情况，确保没有磁盘空间不足的问题。

6. 配置文件检查

core-site.xml：包含 Hadoop 核心配置，如文件系统 URI。
hdfs-site.xml：包含 HDFS 相关配置，如副本因子、数据块大小等。
yarn-site.xml：包含 YARN 相关配置，如资源管理器和节点管理器的配置。

7. 重启服务

NameNode：hadoop-daemon.sh stop namenode 和 hadoop-daemon.sh start namenode。
DataNode：hadoop-daemon.sh stop datanode 和 hadoop-daemon.sh start datanode。
ResourceManager：yarn-daemon.sh stop resourcemanager 和 yarn-daemon.sh start resourcemanager。
NodeManager：yarn-daemon.sh stop nodemanager 和 yarn-daemon.sh start nodemanager。

上一篇： Hadoop 的常见问题有哪些？

下一篇：如何处理 Hadoop 集群中的数据倾斜问题？

纠错
反馈