安装商业版 HAMi NVIDIA vGPU Addon¶

商业版 HAMi NVIDIA vGPU Addon 用于在 Kubernetes 集群中将 NVIDIA GPU 虚拟化为多个 vGPU，并按需分配给不同工作负载使用。

商业版与开源版 NVIDIA vGPU Addon的安装流程基本一致，主要区别在于：商业版安装完成后，需要导入有效 License 并完成激活，相关商业能力才可正常使用。

商业版与开源版区别¶

功能项	开源版	商业版	说明
异构卡支持	英伟达全部	英伟达全部； PPU 全部；昇腾 910A、910B2、910B3、910B4、910B4-1、910C（不支持切分）、310P；沐曦曦云系列 GPU（含 C550/C500/C500X/C290/C280/N260 等型号）；海光；寒武纪；燧原；昆仑芯；摩尔线程；天数智芯等	—
vGPU 资源切分	算力切分	算力切分；显存切分	—
调度能力	对于 NVIDIA GPU： Binpack/Spread 指定 GPU 卡型号指定具体某一张卡	对于 NVIDIA GPU： Binpack/Spread 指定 GPU 卡型号指定具体某一张卡任务优先级	—
监控能力	支持	支持	可通过 ServiceMonitor 接入可观测性模块
企业级支持	开源社区支持	商业支持	—
License 管理	无需 License	需完成 License 激活	—

安装前请确认：

商业版 Addon 的安装方式与开源版一致，区别在于 Helm 模板名称和安装后的 License 激活。

进入目标集群。

路径：容器管理 -> 集群管理 -> 点击目标集群名称。
进入 Helm 模板页面并选择商业版 Addon。

路径：Helm 应用 -> Helm 模板，搜索并选择 nvidia-vgpu-commercial 对应 Addon。

配置安装参数。

常用参数如下：

参数	说明
`deviceCoreScaling`	GPU 算力使用比例，默认值为 1。大于 1 时表示启用虚拟算力。若配置为 S，则单张 GPU 切分出的 vGPU 总算力为 S × 100%。
`deviceMemoryScaling`	GPU 显存使用比例，默认值为 1。大于 1 时表示启用虚拟显存。若 GPU 物理显存为 M，配置为 S 时，切分出的 vGPU 总显存为 S × M。
`deviceSplitCount`	单张 GPU 最大可切分任务数，默认值为 10。每个 GPU 上最多同时存在 N 个任务（N 为该参数值）。
`Resources`	vgpu-device-plugin、vgpu-scheduler 等组件的资源请求与限制。
`ServiceMonitor`	默认不开启。开启后可前往可观测性模块查看 vGPU 相关监控。如需开启，请确保 insight-agent 已安装并处于运行状态，否则将导致 NVIDIA vGPU Addon 安装失败。

如需修改高级参数，可在 YAML 列中直接编辑。

提交安装。
确认 Addon 相关 Pod 正常运行。
```
kubectl get pod -n <HAMi 所在命名空间>
```
预期结果：HAMi scheduler、device plugin 等组件 Pod 均处于 Running 状态。
切换节点 GPU 模式为 vGPU。

从左侧导航栏点击 节点管理，找到目标节点，点击 GPU 模式切换，切换为 vGPU 模式。

Note

NVIDIA 的 vGPU 能力支持节点级别的 GPU 模式切换（整卡/vGPU/MIG 模式），满足同一集群中不同工作负载对 GPU 模式的不同需求。

点击确定后，节点状态会变为 GPU 模式切换中。等待切换完成（即 vGPU 的 hami-nvidia-vgpu-device-plugin Pod 启动完毕）后，节点状态会变为 Nvidia-vGPU。

节点 GPU 模式切换成功后，可参考应用使用 Nvidia vGPU 部署工作负载。切换过程稍有延迟，请在节点标签正确显示后再部署应用。

商业版 HAMi 安装后，必须导入 License 才能激活商业能力。

安装前或安装后，需按 HAMi 要求准备 License 申请信息（如 GPU UUID 等）。获取申请信息、导入 License 并完成激活的详细步骤，请参考获取商业版 HAMi License 信息并完成导入。

完成安装、GPU 模式切换和 License 激活后，可通过以下方式验证：