在 Kubernetes 集群中,节点宕机是无法避免的,但如果处理不当,会导致服务中断。本文将介绍如何保证 Kubernetes 集群中节点宕机后,服务能够继续运行。
1. Node 状态监测
在 Kubernetes 中,kubelet 负责管理节点和容器。kubelet 默认会定期向 kube-apiserver 发送心跳包,保证节点的健康状态。如果节点宕机,kube-apiserver 会在 5 分钟内将该节点从集群中移除。
除了 kubelet,Kubernetes 还提供了一种检测 Node 状态的机制:Node 状态监测(Node Status Check)。Node 状态监测通过在节点上运行一个 DaemonSet,定期检查节点的健康状况,并将结果发送到 kube-apiserver。这个 DaemonSet 可以在所有节点上运行,也可以通过添加 label,只在部分节点上运行,具体操作如下:
创建 Deployment:

通过给相应节点添加 label:
kubectl label nodes <node-name> node-status-check-selector=node-status-check
上面的配置中,DaemonSet 运行的是一个叫做 node-problem-detector 的容器,该容器会定期检查节点的健康状态,并将结果发送到 kube-apiserver。
2. Pod 健康检查
在 Kubernetes 中,Pod 的健康状况是通过容器的健康检查来确定的。容器的健康检查有两种方式:HTTP 请求和命令执行。
HTTP 请求方式:
-- -------------------- ---- ------- ----------- -- ----- --- --------- ----- ------------ ----- ----------- - ----- ----- ------ ----- ------ - -------------- -- -------------- -------- ----- ----------- ----- -- -------------------- -- -------------- --
上面的配置中,定义了一个 Pod,并在容器中设置了一个 livenessProbe。该 livenessProbe 每隔 10 秒钟向容器发送一个 HTTP GET 请求,路径为 /index.html,端口为 80,如果容器返回状态码为 200,则认为容器是健康的。
命令执行方式:
-- -------------------- ---- ------- ----------- -- ----- --- --------- ----- ------------ ----- ----------- - ----- ----- ------ ----- ------ - -------------- -- -------------- ----- -------- - -- - -- - -- --- - ---- ----- - ---- -- ---- -------------------- -- -------------- --
上面的配置中,容器的 livenessProbe 每隔 10 秒钟执行一次 sh -c "ps aux | grep nginx | grep -v grep" 命令,如果命令返回状态码为 0,则认为容器是健康的。
如果容器在 livenessProbe 的检查过程中返回了错误码,Kubernetes 会根据配置决定重启该容器或杀死该 Pod 并重新启动。因此,在 Kubernetes 集群中运行的容器应该配置健康检查。
3. Pod 副本数
在 Kubernetes 中,使用 Deployment 和 StatefulSet 管理 Pod。Deployment 和 StatefulSet 可以设置 Pod 副本数,以保证即使某个节点宕机,也有其它节点上的 Pod 可以继续提供服务。
在 Deployment 和 StatefulSet 中,如果设置了 Pod 副本数为 3,当某个节点宕机时,Kubernetes 会自动在其它节点上启动新的 Pod,场景如下图所示:
因此,设置正确的 Pod 副本数也是保证 Kubernetes 集群在节点宕机后能够继续运行的重要方式。
4. 总结
在 Kubernetes 集群中处理节点宕机问题,需要注意以下几点:
- 监测 Node 的健康状态,保证 Node 能够及时从集群中移除。
- 为容器配置健康检查,保证容器的健康状况。
- 设置正确的 Pod 副本数,保证即使某个节点宕机,也有其它节点上的 Pod 可以继续提供服务。
通过以上几点的措施,可以保证 Kubernetes 集群在节点宕机后仍能正常运行,为业务的稳定运行提供保障。
5. 示例代码
本文中的示例代码已经包含在各个章节中,读者可以直接复制粘贴使用。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/649cd3ad48841e9894984c0f