Kubernetes 集群中 CPU 和内存使用率的监控和告警-JavaScript中文网-JavaScript教程资源分享门户

前言

Kubernetes 是一个较为流行的容器编排系统，在企业中被广泛使用。在 Kubernetes 集群中，监控和告警是必不可少的一部分，充分利用 Kubernetes 中的监控和告警系统，可以帮助开发者快速发现问题并及时修复。

本文将详细介绍在 Kubernetes 集群中如何监控和告警 CPU 和内存使用率，并提供一些示例代码，帮助读者深入了解并实践相关操作。

监控和告警 CPU 和内存使用率

监控

在 Kubernetes 集群中，监控 CPU 和内存使用率可以通过一些工具实现。下面我们将介绍 Prometheus + Grafana 方案来监控 Kubernetes 集群中的 CPU 和内存使用率。

Prometheus

Prometheus 是一个开源的监控系统，它具有高度的可扩展性和灵活性，支持多种数据类型的监控，比如 CPU、内存、磁盘等。在 Kubernetes 中，Prometheus 通过两种方式进行监控：

Metrics Server：Metrics Server 提供了 Kubernetes 中的一些核心指标数据，比如 CPU 使用率、内存使用率等。可以通过 Metrics Server 向 Prometheus 暴露这些数据。
Node Exporter：Node Exporter 可以暴露节点的系统指标数据，比如 CPU 使用率、内存使用率、磁盘使用率等。可以通过 Node Exporter 向 Prometheus 暴露这些数据。

Grafana

Grafana 是一个开源的数据可视化和监控平台。它提供了丰富的图表和面板，并且可以与多种数据源集成，其中包括 Prometheus。

使用 Grafana 可以轻松创建自定义的仪表盘，从而监控 Kubernetes 集群中的 CPU 和内存使用率。

告警

在 Kubernetes 集群中，告警可以通过 Prometheus Alertmanager 实现。Alertmanager 可以根据 Prometheus 的监控指标数据，对某些指标定义告警规则，当某些告警规则被触发时，Alertmanager 将通过电子邮件、Slack 或 PagerDuty 等形式发送告警通知。

安装和配置 Prometheus + Grafana + Alertmanager

下面我们将介绍如何安装和配置 Prometheus + Grafana + Alertmanager，以实现对 Kubernetes 集群中 CPU 和内存使用率的监控和告警。

在 Kubernetes 集群中安装 Prometheus + Grafana + Alertmanager 需要 Kubernetes 聚合层的支持，聚合层是 Kubernetes 的一个组件，它可以将多个 API 服务器的 RESTful API 合并成一个 API 服务器，从而实现 API 的统一访问。

以下是在 Kubernetes 集群中安装 Prometheus + Grafana + Alertmanager 的步骤：

安装可扩展的监控系统 Helm Chart：

$ helm install prometheus prometheus-community/kube-prometheus-stack

创建 Kubernetes Secret，以存储 Alertmanager 发送告警通知时的电子邮件、Slack 或 PagerDuty 等凭据信息：

-- -------------------- ---- -------
----------- --
----- ------
---------
  ----- -------------------
  ---------- ----------
----- ------
-----
  -------------- ------------
  -------------- ------------
  -------------- ------------------------
  ---------------- --------------------展开代码

部署一个 Alertmanager 配置文件，定义告警规则：

-- -------------------- ---- -------
----------- --
----- ---------
---------
  ----- -------------------
  ---------- ----------
-----
  ----------------- --
    -------
      ---------------- -- 
    ------
      --------- ---------------------
      ---------
      - ---------
      --------------- --
      ---------------- --
    ----------
    - ----- ---------------------
      --------------
      - -------- ---------
        -------------- ----
        -------- --- ------------------------------------------ - -------- - ------ ---
        --------- ----------- ------
        --------- -------------------------------------------------
      --------------
      - --- ---------------------
        ----- ---------------------
        ---------- ------------------
        -------------- --- ------------------------------------------ - -------- - ------ ---
        -------------- --- ------------------------------------------ - -------- - ------ ---
        -------------- ----展开代码

部署 Prometheus + Grafana + Alertmanager：

-- -------------------- ---- -------
----------- --
----- ---------
---------
  ----- ----------
  -------
    ----- ----------
---
----------- -------
----- ----------
---------
  ----- ----------
  ---------- ----------
-----
  --------- -
  ---------
    ------------
      ----- ----------
  ---------
    ---------
      -------
        ----- ----------
    -----
      -----------
      - ----- ----------
        ------ -------------------------------------
        -----
        - --------------------------------------------
        - --------------------------------
        ------
        - -------------- ----
        -------------
        - ----- -----------------
          ---------- ----------------
        - ----- ------------------
          ---------- ------------
      --------
      - ----- ------------------
        ----------------------
          ---------- --------------
      - ----- -----------------
        ----------
          ----- ----------------------
---
----------- --
----- -------
---------
  ----- ----------
  ---------- ----------
-----
  ----- --------
  ---------
    ----- ----------
  ------
  - ----- ----
    ----------- ----
    --------- -----
---
----------- -------
----- ----------
---------
  ----- -------
  ---------- ----------
-----
  --------- -
  ---------
    ------------
      ----- -------
  ---------
    ---------
      -------
        ----- -------
    -----
      -----------
      - ----- -------
        ------ ---------------------
        ------
        - -------------- ----
        -------------
        - ----- ---------------
          ---------- ----------------
      --------
      - ----- ---------------
        ----------------------
          ---------- -----------
---
----------- --
----- -------
---------
  ----- -------
  ---------- ----------
-----
  ----- --------
  ---------
    ----- -------
  ------
  - ----- --
    ----------- ----
    --------- -----
---
----------- -------
----- ----------
---------
  ----- ------------
  ---------- ----------
-----
  --------- -
  ---------
    ------------
      ----- ------------
  ---------
    ---------
      -------
        ----- ------------
    -----
      -----------
      - ----- ------------
        ------ -------------------------
        -----
        - -------------------------------------------
        ------
        - -------------- ----
        -------------
        - ----- -------------------
          ---------- ------------------
          --------- ----
      --------
      - ----- -------------------
        ----------
          ----- -------------------
---
----------- --
----- -------
---------
  ----- ------------
  ---------- ----------
-----
  ----- --------
  ---------
    ----- ------------
  ------
  - ----- ----
    ----------- ----
    --------- -----展开代码

创建 Kubernetes 配置文件 prometheus-server-conf：

-- -------------------- ---- -------
----------- --
----- ---------
---------
  ----- ----------------------
  ---------- ----------
-----
  --------------- --
    -------
      ---------------- ---
      -------------------- ---
    ---------------
    - --------- -----------------------
      ----------------------
      - ----- ---------
      ----------------
      - -------------- ----------------------------- ------------------------------- -------------------------------------
        ------- ----
        ------ ------------------------
      - -------------- ----------------------------- ---------------------------
        ------- -------
        ------------- ---
        ------ ---------
      -----------------------
      - -------------- ----------
        ------ -----------------------------------------------
        ------- ----
        - -------------- ----------
        ------ ---------------------------------------------
        ------- ----

    - --------- ------------------
      ----------------------
      - ----- ----
      ------------- -----------------
      ----------------
      - ------- --------
        ------ ---------------------------------
      - ------------- -----------
        ------------ --------------------------
      - -------------- -----------------------------
        ------------- --------

    - --------- -----------------
      ------------- ----
      ------------- --------
      ----------------------
      - ----- ---
      ----------------
      - ------- ----
        ------ ------------------
        -------------- --------------------------------------
        ------------- ---
      - -------------- ---------------------------------
        ------ -----------
        ------- ----
      - -------------- ----------------------------
        ------------- ---
      - -------------- -----------------------------
        ------------- ---------
      - ------- --------
        ------ --------------------------------
      - ------- -------
        -------------- --------------------------------------
        ------------- ---------
      - -------------- --------------------------
        ------------- ------

    - --------- ---------------------
      ------------- ----
      ----------------------
      - ----- -------
      ----------------
      - ------- ----
        ------ ------
        -------------- -----------------------------------------------------------
        ------------- --------------------
      - ------- -------
        ------ ----
        -------------- --------------------------------
        ------------- ---
      - ------------- -----------
        ------------ --------------------------
      - -------------- ----------------------------- -------------------------------
        ------- -------
        ------------- ----------------
        ------ ------------------展开代码

创建 Kubernetes 配置文件 grafana-datasources：

-- -------------------- ---- -------
----------- --
----- ---------
---------
  ----- -------------------
  ---------- ----------
-----
  --------------- --
    ----------- -
    ------------
    - ----- ----------
      ----- ----------
      ---- ---------------------------------------------------
      ------- -----
      ---------- ----
      ---------
        ------------- ----
    - ----- ------------
      ----- ----------
      ---- -----------------------------------------------------
      ------- -----
      ---------
        ------------- ----展开代码

示例代码

下面我们介绍如何在 Grafana 中创建一个仪表盘，用于监控 Kubernetes 集群中的 CPU 和内存使用率，并实现告警功能。

打开 Grafana，并登录到您的帐户。在您的仪表板页面中，单击“新建仪表板”。
在“新建仪表板”页面中，单击“添加查询”，并选择要监控的 Kubernetes 集群。在此示例中，我们选择“kubelet”服务。
输入以下 PromQL 来监控 CPU 使用率：

100 - (avg by (instance) (irate(node_cpu_seconds_total{job="node-exporter", mode="idle"}[5m])) * 100)

输入以下 PromQL 来监控内存使用率：

100 * (1 - ((avg_over_time(node_memory_MemAvailable_bytes[1m]) / 1024 / 1024 / 1024) / (avg_over_time(node_memory_MemTotal_bytes[1m]) / 1024 / 1024 / 1024)))

单击“添加查询”后，在右上角单击“保存仪表板”。
在“新建仪表板”页面中，单击“添加告警通知”，并选择 Alertmanager 作为通知方式。
创建告警规则，定义告警阈值和告警通知方式。
单击“保存仪表板”，并在“新建仪表板”页面中，单击右上角的“保存”。

现在您已经成功地创建了一个仪表盘，并实现了监控和告警功能。

总结

本文介绍了在 Kubernetes 集群中如何监控和告警 CPU 和内存使用率。通过使用 Prometheus + Grafana + Alertmanager 方案，开发者可以监控 Kubernetes 集群中的关键指标，并及时发现问题以及采取相应的措施。此外，本文还提供了示例代码，帮助读者深入了解相关操作，并实践相关知识。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/652a43c37d4982a6ebc97c34

Kubernetes 集群中 CPU 和内存使用率的监控和告警

前言

监控和告警 CPU 和内存使用率

监控

Prometheus

Grafana

告警

安装和配置 Prometheus + Grafana + Alertmanager

示例代码

总结

纠错反馈

程序员教程

程序员面试题库