GPU 指标自定义配置¶

运营管理支持自定义 GPU 指标的采集规则。可以根据 GPU 厂商（如 NVIDIA、AMD、华为）及其 Exporter 提供的原始指标，通过 PromQL 公式计算并展示以下性能数据：

支持从 Pod、Namespace、Node、Cluster 维度进行聚合统计。

操作指南¶

GPU 配置列表

Tip

代码编辑器支持实时语法校验。如果公式有误，编辑器下方会显示具体错误。

GPU 指标编辑表单

配置公式时可参考下表：

指标名称	说明	推荐公式示例 (NVIDIA DCGM)
Pod 显存占用	单个 Pod 的显存使用量 (Bytes)	`sum(DCGM_FI_DEV_FB_USED) by (pod) * 1024 * 1024`
Pod GPU 利用率	单个 Pod 的 GPU 算力使用率 (%)	`avg(DCGM_FI_DEV_GPU_UTIL) by (pod)`
Pod 显存利用率	单个 Pod 的显存使用百分比 (%)	`sum(DCGM_FI_DEV_FB_USED) / sum(DCGM_FI_DEV_FB_TOTAL) * 100`

Nvidia GPU 指标

Note

实际公式需根据环境中的 Prometheus 指标名称（如 DCGM_FI_DEV_...）和标签（pod, namespace 等）进行调整。

Q: 配置后报表没有数据？

Q: 可以配置多个厂商吗？

可以。支持为不同厂商分别创建规则，系统会根据节点的标签自动匹配。