前言
Kubernetes 是一个较为流行的容器编排系统,在企业中被广泛使用。在 Kubernetes 集群中,监控和告警是必不可少的一部分,充分利用 Kubernetes 中的监控和告警系统,可以帮助开发者快速发现问题并及时修复。
本文将详细介绍在 Kubernetes 集群中如何监控和告警 CPU 和内存使用率,并提供一些示例代码,帮助读者深入了解并实践相关操作。
监控和告警 CPU 和内存使用率
监控
在 Kubernetes 集群中,监控 CPU 和内存使用率可以通过一些工具实现。下面我们将介绍 Prometheus + Grafana 方案来监控 Kubernetes 集群中的 CPU 和内存使用率。
Prometheus
Prometheus 是一个开源的监控系统,它具有高度的可扩展性和灵活性,支持多种数据类型的监控,比如 CPU、内存、磁盘等。在 Kubernetes 中,Prometheus 通过两种方式进行监控:
Metrics Server:Metrics Server 提供了 Kubernetes 中的一些核心指标数据,比如 CPU 使用率、内存使用率等。可以通过 Metrics Server 向 Prometheus 暴露这些数据。
Node Exporter:Node Exporter 可以暴露节点的系统指标数据,比如 CPU 使用率、内存使用率、磁盘使用率等。可以通过 Node Exporter 向 Prometheus 暴露这些数据。
Grafana
Grafana 是一个开源的数据可视化和监控平台。它提供了丰富的图表和面板,并且可以与多种数据源集成,其中包括 Prometheus。
使用 Grafana 可以轻松创建自定义的仪表盘,从而监控 Kubernetes 集群中的 CPU 和内存使用率。
告警
在 Kubernetes 集群中,告警可以通过 Prometheus Alertmanager 实现。Alertmanager 可以根据 Prometheus 的监控指标数据,对某些指标定义告警规则,当某些告警规则被触发时,Alertmanager 将通过电子邮件、Slack 或 PagerDuty 等形式发送告警通知。
安装和配置 Prometheus + Grafana + Alertmanager
下面我们将介绍如何安装和配置 Prometheus + Grafana + Alertmanager,以实现对 Kubernetes 集群中 CPU 和内存使用率的监控和告警。
在 Kubernetes 集群中安装 Prometheus + Grafana + Alertmanager 需要 Kubernetes 聚合层的支持,聚合层是 Kubernetes 的一个组件,它可以将多个 API 服务器的 RESTful API 合并成一个 API 服务器,从而实现 API 的统一访问。
以下是在 Kubernetes 集群中安装 Prometheus + Grafana + Alertmanager 的步骤:
- 安装可扩展的监控系统 Helm Chart:
$ helm install prometheus prometheus-community/kube-prometheus-stack
- 创建 Kubernetes Secret,以存储 Alertmanager 发送告警通知时的电子邮件、Slack 或 PagerDuty 等凭据信息:
// javascriptcn.com 代码示例 apiVersion: v1 kind: Secret metadata: name: alertmanager-secret namespace: monitoring type: Opaque data: smtp_username: dXNlcm5hbWU= smtp_password: cGFzc3dvcmQ= slack_api_url: aHR0cHM6Ly9zbGFjay5jb20= slack_bot_token: eW91cl9ib3RfdG9rZW4=
- 部署一个 Alertmanager 配置文件,定义告警规则:
// javascriptcn.com 代码示例 apiVersion: v1 kind: ConfigMap metadata: name: alertmanager-config namespace: monitoring data: alertmanager.yml: |- global: resolve_timeout: 5m route: receiver: 'slack-notifications' group_by: - alertname group_interval: 5m repeat_interval: 2h receivers: - name: 'slack-notifications' slack_configs: - channel: '#alerts' send_resolved: true api_url: '{{ .Values.alertmanager.secrets.slack_api_url | toString | b64dec }}' username: 'Kubernetes Alert' icon_url: 'https://prometheus.io/images/kubernetes-k8s.png' email_configs: - to: 'example@example.com' from: 'example@example.com' smarthost: smtp.gmail.com:587 auth_username: '{{ .Values.alertmanager.secrets.smtp_username | toString | b64dec }}' auth_password: '{{ .Values.alertmanager.secrets.smtp_password | toString | b64dec }}' send_resolved: true
- 部署 Prometheus + Grafana + Alertmanager:
// javascriptcn.com 代码示例 apiVersion: v1 kind: Namespace metadata: name: monitoring labels: name: monitoring --- apiVersion: apps/v1 kind: Deployment metadata: name: prometheus namespace: monitoring spec: replicas: 1 selector: matchLabels: name: prometheus template: metadata: labels: name: prometheus spec: containers: - name: prometheus image: quay.io/prometheus/prometheus:v2.23.0 args: - --config.file=/etc/prometheus/prometheus.yml - --storage.tsdb.path=/prometheus/ ports: - containerPort: 9090 volumeMounts: - name: prometheus-config mountPath: /etc/prometheus/ - name: prometheus-storage mountPath: /prometheus/ volumes: - name: prometheus-storage persistentVolumeClaim: claimName: prometheus-pvc - name: prometheus-config configMap: name: prometheus-server-conf --- apiVersion: v1 kind: Service metadata: name: prometheus namespace: monitoring spec: type: NodePort selector: name: prometheus ports: - port: 9090 targetPort: 9090 nodePort: 30100 --- apiVersion: apps/v1 kind: Deployment metadata: name: grafana namespace: monitoring spec: replicas: 1 selector: matchLabels: name: grafana template: metadata: labels: name: grafana spec: containers: - name: grafana image: grafana/grafana:7.5.7 ports: - containerPort: 3000 volumeMounts: - name: grafana-storage mountPath: /var/lib/grafana volumes: - name: grafana-storage persistentVolumeClaim: claimName: grafana-pvc --- apiVersion: v1 kind: Service metadata: name: grafana namespace: monitoring spec: type: NodePort selector: name: grafana ports: - port: 80 targetPort: 3000 nodePort: 30111 --- apiVersion: apps/v1 kind: Deployment metadata: name: alertmanager namespace: monitoring spec: replicas: 1 selector: matchLabels: name: alertmanager template: metadata: labels: name: alertmanager spec: containers: - name: alertmanager image: prom/alertmanager:v0.21.0 args: - --config.file=/etc/alertmanager/config.yaml ports: - containerPort: 9093 volumeMounts: - name: alertmanager-config mountPath: /etc/alertmanager/ readOnly: true volumes: - name: alertmanager-config configMap: name: alertmanager-config --- apiVersion: v1 kind: Service metadata: name: alertmanager namespace: monitoring spec: type: NodePort selector: name: alertmanager ports: - port: 9093 targetPort: 9093 nodePort: 30122
- 创建 Kubernetes 配置文件 prometheus-server-conf:
// javascriptcn.com 代码示例 apiVersion: v1 kind: ConfigMap metadata: name: prometheus-server-conf namespace: monitoring data: prometheus.yml: |- global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: - job_name: 'kubernetes-apiservers' kubernetes_sd_configs: - role: endpoints relabel_configs: - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name] action: keep regex: default;kubernetes;https - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_pod_name] action: replace target_label: pod regex: (.*);(.*) metric_relabel_configs: - source_labels: [__name__] regex: '(kube_api_server_request_latencies_summary.*)' action: keep - source_labels: [__name__] regex: '(kube_api_server_request_latencies_count.*)' action: keep - job_name: 'kubernetes-nodes' kubernetes_sd_configs: - role: node metrics_path: /metrics/cadvisor relabel_configs: - action: labelmap regex: __meta_kubernetes_node_label_(.+) - target_label: __address__ replacement: kubernetes.default.svc:443 - source_labels: [__meta_kubernetes_node_name] target_label: instance - job_name: 'kubernetes-pods' honor_labels: true metrics_path: /metrics kubernetes_sd_configs: - role: pod relabel_configs: - action: keep regex: kube-state-metrics source_labels: [__meta_kubernetes_pod_container_name] target_label: job - source_labels: [__meta_kubernetes_pod_namespace] regex: development action: keep - source_labels: [__meta_kubernetes_pod_name] target_label: pod - source_labels: [__meta_kubernetes_namespace] target_label: namespace - action: labelmap regex: __meta_kubernetes_pod_label_(.+) - action: replace source_labels: [__meta_kubernetes_pod_container_name] target_label: container - source_labels: [__meta_kubernetes_pod_ip] target_label: pod_ip - job_name: 'kubernetes-services' honor_labels: true kubernetes_sd_configs: - role: service relabel_configs: - action: keep regex: scrape source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape] target_label: prometheus_io_scrape - action: replace regex: (.*) source_labels: [__meta_kubernetes_service_name] target_label: job - target_label: __address__ replacement: kubernetes.default.svc:443 - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name] action: replace target_label: __metrics_path__ regex: default;kubernetes
- 创建 Kubernetes 配置文件 grafana-datasources:
// javascriptcn.com 代码示例 apiVersion: v1 kind: ConfigMap metadata: name: grafana-datasources namespace: monitoring data: prometheus.yml: |- apiVersion: 1 datasources: - name: Prometheus type: prometheus url: http://prometheus.monitoring.svc.cluster.local:9090 access: proxy isDefault: true jsonData: timeInterval: "5s" - name: Alertmanager type: prometheus url: http://alertmanager.monitoring.svc.cluster.local:9093 access: proxy jsonData: timeInterval: "5s"
示例代码
下面我们介绍如何在 Grafana 中创建一个仪表盘,用于监控 Kubernetes 集群中的 CPU 和内存使用率,并实现告警功能。
打开 Grafana,并登录到您的帐户。在您的仪表板页面中,单击“新建仪表板”。
在“新建仪表板”页面中,单击“添加查询”,并选择要监控的 Kubernetes 集群。在此示例中,我们选择“kubelet”服务。
输入以下 PromQL 来监控 CPU 使用率:
100 - (avg by (instance) (irate(node_cpu_seconds_total{job="node-exporter", mode="idle"}[5m])) * 100)
- 输入以下 PromQL 来监控内存使用率:
100 * (1 - ((avg_over_time(node_memory_MemAvailable_bytes[1m]) / 1024 / 1024 / 1024) / (avg_over_time(node_memory_MemTotal_bytes[1m]) / 1024 / 1024 / 1024)))
单击“添加查询”后,在右上角单击“保存仪表板”。
在“新建仪表板”页面中,单击“添加告警通知”,并选择 Alertmanager 作为通知方式。
创建告警规则,定义告警阈值和告警通知方式。
单击“保存仪表板”,并在“新建仪表板”页面中,单击右上角的“保存”。
现在您已经成功地创建了一个仪表盘,并实现了监控和告警功能。
总结
本文介绍了在 Kubernetes 集群中如何监控和告警 CPU 和内存使用率。通过使用 Prometheus + Grafana + Alertmanager 方案,开发者可以监控 Kubernetes 集群中的关键指标,并及时发现问题以及采取相应的措施。此外,本文还提供了示例代码,帮助读者深入了解相关操作,并实践相关知识。
来源:JavaScript中文网 ,转载请注明来源 本文地址:https://www.javascriptcn.com/post/652a43c37d4982a6ebc97c34