在现代化的云原生应用架构中,容器编排平台的使用已经成为了标配。Kubernetes 作为容器编排领域的领军者,它的高可用、自动化、弹性伸缩等特性,为我们提供了一个高效便捷的应用部署和管理工具。然而,随着应用规模的增长,监控和告警成为了必要的一环。而 Prometheus 作为一款开源的监控系统,已经被广泛应用于 Kubernetes 集群中。本文将详细介绍如何在 Kubernetes 集群中使用 Prometheus 实现监控。
安装 Prometheus
步骤一:创建 Prometheus 的配置文件
首先,我们需要创建一个 prometheus.yaml 配置文件,用于指定 Prometheus 监控的目标和规则。以下是一个简单的例子:

在上面的配置文件中,我们指定了三个 job,分别对应 Kubernetes 集群中的 API 服务器、节点和 Pod。其中,API 服务器和节点使用 HTTPS 协议进行通信,并且需要提供相应的证书和认证信息。而 Pod 则是通过 Kubernetes API 进行发现。
步骤二:创建 Prometheus 的 Deployment 和 Service
接下来,我们需要在 Kubernetes 集群中创建 Prometheus 的 Deployment 和 Service。以下是一个简单的例子:
-- -------------------- ---- ------- ----------- ------- ----- ---------- --------- ----- ---------- ----- --------- - --------- ------------ ---- ---------- --------- --------- ------- ---- ---------- ----- ----------- - ----- ---------- ------ ----------------------- ----- - ----------------------------------------------- ------ - -------------- ---- ------------- - ----- ------ ---------- --------------- -------- - ----- ------ ---------- ----- ----------------- --- ----------- -- ----- ------- --------- ----- ---------- ----- --------- ---- ---------- ------ - ----- --- ----- ---- ----------- ---- ----- ---------
在上面的配置文件中,我们指定了一个名为 prometheus 的 Deployment 和 Service。Deployment 中的容器使用了 prom/prometheus:v2.22.0 镜像,并挂载了前面创建的 prometheus.yaml 配置文件。Service 则将容器的 9090 端口暴露出来,以供外部访问。
步骤三:创建 Prometheus 的 ConfigMap
最后,我们需要在 Kubernetes 集群中创建一个 ConfigMap,用于存储 Prometheus 的配置文件。以下是一个简单的例子:

在上面的配置文件中,我们指定了一个名为 prometheus-config 的 ConfigMap,并将前面创建的 prometheus.yaml 配置文件存储在其中。
使用 Prometheus
步骤一:访问 Prometheus 控制台
完成上述步骤后,我们就可以通过访问 Prometheus 控制台来查看监控数据了。首先,我们需要获取 Prometheus 的 Service IP 地址。可以通过以下命令来获取:
kubectl get svc prometheus
然后,我们可以通过浏览器访问该 IP 地址的 9090 端口,即可进入 Prometheus 控制台。
步骤二:配置监控规则
在 Prometheus 控制台中,我们可以通过配置监控规则来实现对目标的监控。以下是一个简单的例子:
- name: node_memory_usage rules: - expr: sum(node_memory_MemTotal) - sum(node_memory_MemFree) - sum(node_memory_Buffers) - sum(node_memory_Cached) record: node_memory_usage_bytes
在上面的配置中,我们定义了一个名为 node_memory_usage 的监控规则,用于计算节点内存的使用情况。该规则使用了一条 PromQL 表达式,将节点内存总量减去空闲内存、缓存和缓冲区的使用量,得出实际使用的内存量,并将其存储在名为 node_memory_usage_bytes 的记录中。
步骤三:创建告警规则
除了监控规则外,我们还需要配置告警规则,以便在出现异常情况时能够及时通知相关人员。以下是一个简单的例子:
-- -------------------- ---- ------- ------- - ----- ----------- ------ - ------ -------------------- ----- ----------------------- - -------------------- - --- - -- ---- -- ------- --------- ------- ------------ -------- ----- -- ---------------- -- ------ ----- -- ----- ------------ ----- -- ---------------- -- ------ ----- -- -- -------- ------ -----
在上面的配置中,我们定义了一个名为 NodeMemoryUsageAlert 的告警规则,用于检测节点内存使用率是否超过 80%。如果超过了该阈值,就会触发告警,并且在持续 5 分钟后才会恢复。告警级别为 warning,同时也定义了告警的摘要和描述信息。
总结
通过上述步骤,我们已经成功地在 Kubernetes 集群中使用 Prometheus 实现了监控和告警功能。除了上述介绍的内容外,Prometheus 还提供了许多其他的功能,如数据存储、查询语言、图形化界面等,可以根据实际需求进行配置和使用。希望本文能够对大家在 Kubernetes 集群中使用 Prometheus 进行监控有所帮助。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/65cd5948add4f0e0ff698fa1