GPU 告警规则¶

本文介绍如何在 DCE 5.0 平台设置 GPU 相关的告警规则。

前置条件¶

本节介绍 GPU 告警常用的指标，分为两个部分：

指标名称	指标单位	说明
DCGM_FI_DEV_GPU_UTIL	%	GPU 利用率
DCGM_FI_DEV_MEM_COPY_UTIL	%	显存利用率
DCGM_FI_DEV_ENC_UTIL	%	编码器利用率
DCGM_FI_DEV_DEC_UTIL	%	解码器利用率
DCGM_FI_DEV_FB_FREE	MB	表示显存剩余量
DCGM_FI_DEV_FB_USED	MB	表示显存使用量
DCGM_FI_DEV_GPU_TEMP	摄氏度	表示当前 GPU 的温度度数
DCGM_FI_DEV_POWER_USAGE	W	设备电源使用情况
DCGM_FI_DEV_XID_ERRORS	-	表示一段时间内，最后发生的 XID 错误号。XID 提供 GPU 硬件、NVIDIA 软件或应用中的错误类型、错误位置、错误代码等信息，更多 XID 信息

指标名称	指标单位	说明
kpanda_gpu_pod_utilization	%	表示 Pod 对 GPU 的使用率
kpanda_gpu_mem_pod_usage	MB	表示 Pod 对 GPU 显存的使用量
kpanda_gpu_mem_pod_utilization	%	表示 Pod 对 GPU 显存的使用率