跳转至

沐曦 GPU 组件离线安装与使用

本章节提供沐曦 metax-gpu-extensions、metax-operator、metax-exporter 等组件的离线安装指导和沐曦 GPU 卡的使用方法。

前提条件

组件说明

容器管理提供了三个 helm-chart 包,分别是 metax-gpu-extensions、metax-operator 和 metax-exporter,根据使用场景可选择安装不同的组件。

  1. metax-gpu-extensions:包含 gpu-device 和 gpu-label 两个组件,且 Metax-extensions 仅适用于 GPU 整卡使用场景。
  2. metax-operator :包含 gpu-device、gpu-label、driver-manager、container-runtime、operator-controller 这些组件。gpu-operator 适用于 GPU 整卡和 vGPU 场景。
  3. metax-exporter:包含 ServiceAccount、ConfigMap、Service、DaemonSet、和 ServiceMonitor,主要用于沐曦GPU卡的监控场景。

操作步骤

  1. 通过左侧导航栏 容器管理 -> 集群管理 ,点击目标集群的名称
  2. 从左侧导航栏点击 Helm 应用 -> Helm 模板 -> 搜索 metax
  3. 出现如下三个组件,根据需要选择性安装。

三个组件

📢📢📢 安装注意事项

  1. metax-gpu-extensions 和 metax-operator 安装问题:这两个 addon 设计有缺陷,其 registry 字段为独立字段, charts-syncer工具只能处理两层级字段,无法处理该类型字段。因此 部署时需手动将两个 addon 中的 registry 字段值分别修改为 image.registry 字段的值

    修改前示例:

    修改前

    导致 charts-syncer 工具不能处理这种类型的字段,它只能处理两个层级的字段。因此需要修改成类似如下结构。

    修改后示例:

    修改后

  2. Metax-exporter 0.5.0 面板问题

    因为 v0.5.0 版本的 name 多了一个 mx 的前缀,因此需要通过在 ServiceMonitor 中添加一个 replace 配置把它改回之前的配置:

    • 安装完成 metax-exporter v0.5.0 版本后,在相应集群的 自定义资源 中搜索 servicemonitor,点击名称 servicemonitors.monitoring.coreos.com 进入详情

      crd

    • 编辑 metax-exporter 的 yaml,并在 yaml 的相应位置添加如下内容:

      修改yaml

      添加的内容:

      metricRelabelings:
       - action: replace
       regex: mx_(.*)
       sourceLabels:
       - __name__
       targetLabel: __name__
      

      添加后的效果(需要保证格式和位置准确):

      修改后

评论