Docker Swarm Manager 节点挂掉之后的应对方法-JavaScript中文网-JavaScript教程资源分享门户

Docker 是一款流行的容器化技术，Docker Swarm 是一种跨多个 Docker 容器主机管理和编排容器的工具。在一个 Swarm 集群中，通常会有多个 Swarm Manager 节点，用于管理和调度容器。但是如果某个 Swarm Manager 节点挂掉了，会导致整个集群的工作受到影响。本文将介绍 Docker Swarm Manager 节点挂掉之后的应对方法。

问题描述

在一个 Docker Swarm 集群中，有多个 Swarm Manager 节点。当一个 Swarm Manager 节点挂掉时，其他 Swarm Manager 节点便需要接手它的工作，以维持集群的正常运行。如果没有及时处理，这可能会导致容器失去管理和调度，从而导致一系列问题，例如容器重启、网络不稳定等。

应对方法

1. 检测节点状态

在一个 Swarm 集群中，每个节点都有一个状态。当一个节点挂掉时，其他节点可以通过检测节点状态来判断是否需要接管该节点的工作。Swarm 提供了一个命令行工具 docker node ls 用于查看节点状态。

$ docker node ls

ID                            HOSTNAME            STATUS              AVAILABILITY        MANAGER STATUS      ENGINE VERSION
rkxjwxd7z55ckdcdcrb7upuqu     worker-1            Ready               Active                                  20.10.7
tbeyc47out2wy8d15j745686t *   manager-1           Ready               Active              Leader              20.10.7
vvcgnn4bn8bq3qnd2bwucjvpx     worker-2            Ready               Active                                  20.10.7

在上述命令执行结果中，* 表示当前节点是 Leader 节点，也就是 Swarm Manager 节点。

当一个 Swarm Manager 节点挂掉时，其他 Swarm Manager 节点可以通过定期执行 docker node ls 命令来检测节点状态，如发现一个节点状态变化，便可以启动故障转移程序，将该节点的工作接手过来。

2. 故障转移

当一个 Swarm Manager 节点挂掉时，其他 Swarm Manager 节点可以启动故障转移程序来接管该节点的工作。故障转移程序会启动新的 Swarm Manager 节点并复制当前环境的状态信息，如已运行的容器、已创建的网络等信息。

Docker Swarm 提供了自带的故障转移功能。当一个 Manager 节点挂掉时，故障转移程序会在其它 Manager 节点中选出一个新的 Leader，然后启动新的 Manager 节点并将状态信息复制到新的节点中，以保持集群的工作。

默认情况下，Docker Swarm 的故障转移功能会在一分钟内检测到节点故障，并在随后的 30 秒内完成状态复制、Leader 选举和新节点启动的过程。如果需要调整这些时间，可以使用 --availability 参数调整。

$ docker swarm init --availability 30s

在上述命令中，我们将故障转移的时间缩短到了 30 秒。

3. 高可用性设计

为了保证 Docker Swarm 集群的高可用性，除了使用故障转移程序之外，还可以采用以下方法：

部署多个 Swarm Manager 节点。这样即使有一个节点挂掉了，其他节点也可以保证集群的正常运行。
使用虚拟 IP（VIP）和负载均衡器（LB）。当多个 Swarm Manager 节点同时存在时，可以通过负载均衡器来分配请求。同时，为了避免单点故障，可以给多个 Swarm Manager 节点一个共享的虚拟 IP（VIP）。
记录并监控日志。通过记录集群的日志，并及时监控日志，可以及时发现集群的各种异常情况，从而尽快采取应对措施。

总结

Docker Swarm Manager 节点挂掉是一个常见的问题，但是通过定期检测节点状态以及使用故障转移程序等方法，可以有效地应对这个问题。在实际的生产环境中，我们还需要考虑集群的高可用性设计，以保证集群的稳定运行和容错能力。

示例代码：

# 检测节点状态
docker node ls

# 调整故障转移时间为 30s
docker swarm init --availability 30s

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/64918f3b48841e9894f9970f