GPU Operator 离线安装¶

DCE 5.0 预置了 Ubuntu22.04、Ubuntu20.04、CentOS 7.9 这三个操作系统的 Driver 镜像，驱动版本是 535.104.12；并且内置了各操作系统所需的 Toolkit 镜像，用户不再需要手动离线 Toolkit 镜像。

本文使用 AMD 架构的 CentOS 7.9（3.10.0-1160）进行演示。如需使用 Red Hat 8.4 部署，请参考向火种节点仓库上传 Red Hat GPU Opreator 离线镜像和构建 Red Hat 8.4 离线 yum 源。

前提条件¶

待部署 gpu-operator 的集群节点内核版本必须完全一致。节点所在的发行版和 GPU 卡型号在 GPU 支持矩阵的范围内。
用户已经在平台上安装了 v0.12.0 及以上版本的 addon 离线包（Addon v0.20 及以上版本内置 Ubuntu22.04、Ubuntu20.04、CentOS 7.9 三个操作系统）。
安装 gpu-operator 时选择 v23.9.0+2 及以上版本

操作步骤¶

参考如下步骤为集群安装 gpu-operator 插件。

登录平台，进入 容器管理 -> 待安装 gpu-operator 的集群 -> 进入集群详情
在 Helm 模板 页面，选择 全部仓库 ，搜索 gpu-operator
选择 gpu-operator ，点击安装
参考下文参数配置，配置 gpu-operator 安装参数，完成 gpu-operator 的安装

参数配置¶

systemOS ：选择机器的操作系统，当前内置了 Ubuntu 22.04、Ubuntu20.04、Centos7.9 、other 四个选项，请正确的选择操作系统。

基本参数配置¶

名称：输入插件名称。
命名空间 ：选择将插件安装的命名空间。
版本：插件的版本，此处以 v23.9.0+2 版本为例。
失败删除 ：安装失败，则删除已经安装的关联资源。开启后，将默认同步开启 就绪等待 。
就绪等待 ：启用后，所有关联资源都处于就绪状态，才会标记应用安装成功。
详情日志 ：开启后，将记录安装过程的详细日志。

高级参数配置¶

Operator 参数配置¶

InitContainer.image ：配置 CUDA 镜像，推荐默认镜像： nvidia/cuda
InitContainer.repository ：CUDA 镜像所在的镜像仓库，默认为 nvcr.m.daocloud.io 仓库
InitContainer.version : CUDA 镜像的版本，请使用默认参数

Driver 参数配置¶

Driver.enable ：配置是否在节点上部署 NVIDIA 驱动，默认开启，如果您在使用 GPU Operator 部署前，已经在节点上部署了 NVIDIA 驱动程序，请关闭。（若手动部署驱动程序需要关注 CUDA Toolkit 与 Toolkit Driver Version 的适配关系，通过 GPU operator 安装则无需关注）。
Driver.usePrecompiled ：启用预编译的GPU驱动
Driver.image ：配置 GPU 驱动镜像，推荐默认镜像： nvidia/driver 。
Driver.repository ：GPU 驱动镜像所在的镜像仓库，默认为 nvidia 的 nvcr.io 仓库。
Driver.usePrecompiled ：开启预编译模式安装驱动。
Driver.version ：GPU 驱动镜像的版本，离线部署请使用默认参数，仅在线安装时需配置。不同类型操作系统的 Driver 镜像的版本存在如下差异，详情可参考：Nvidia GPU Driver 版本。如下不同操作系统的 Driver Version 示例：
Note

使用内置的操作系统版本无需修改镜像版本，其他操作系统版本请参考向火种节点仓库上传镜像。注意版本号后无需填写 Ubuntu、CentOS、Red Hat 等操作系统名称，若官方镜像含有操作系统后缀，请手动移除。
- Red Hat 系统，例如 525.105.17
- Ubuntu 系统，例如 535-5.15.0-1043-nvidia
- CentOS 系统，例如 525.147.05
Driver.RepoConfig.ConfigMapName ：用来记录 GPU Operator 的离线 yum 源配置文件名称，当使用预置的离线包时，各类型的操作系统请参考如下的文档。
- 构建 CentOS 7.9 离线 yum 源
- 构建 Red Hat 8.4 离线 yum 源

Toolkit 配置参数¶

Toolkit.enable ：默认开启，该组件让 conatainerd/docker 支持运行需要 GPU 的容器。

MIG 配置参数¶

详细配置方式请参考开启 MIG 功能

MigManager.Config.name ：MIG 的切分配置文件名，用于定义 MIG 的（GI, CI）切分策略。默认为 default-mig-parted-config 。自定义参数参考开启 MIG 功能。

下一步操作¶

完成上述相关参数配置和创建后：

如果使用 整卡模式，应用创建时可使用 GPU 资源
如果使用 vGPU 模式 ，完成上述相关参数配置和创建后，下一步请完成 vGPU Addon 安装
如果使用 MIG 模式，并且需要给个别 GPU 节点按照某种切分规格进行使用，否则按照 MigManager.Config 中的 default 值进行切分。
- single 模式请给对应节点打上如下 Label：
```
kubectl label nodes {node} nvidia.com/mig.config="all-1g.10gb" --overwrite
```
- mixed 模式请给对应节点打上如下 Label：
```
kubectl label nodes {node} nvidia.com/mig.config="custom-config" --overwrite
```

切分后，应用可使用 MIG GPU 资源。

升级注意事项¶

已知问题：gpu-operator 从 v23.9.0+3 版本升级到 v24.6.0+1 后，gpu-operator-node-feature-discovery-master 一直处于 crash 状态。
解决办法：在 Helm 应用 页面，搜索 gpu-operator ，点击操作栏中的更新按钮，进入更新页面，选择版本为 24.6.0+1 后，将 upgradeCRD 设置为 true。