安装商业版 HAMi NVIDIA vGPU Addon¶
商业版 HAMi NVIDIA vGPU Addon 用于在 Kubernetes 集群中将 NVIDIA GPU 虚拟化为多个 vGPU,并按需分配给不同工作负载使用。
商业版与开源版 NVIDIA vGPU Addon的安装流程基本一致,主要区别在于:商业版安装完成后,需要导入有效 License 并完成激活,相关商业能力才可正常使用。
商业版与开源版区别¶
安装区别¶
| 对比项 | 开源版 | 商业版 |
|---|---|---|
| 安装入口 | Helm 模板安装 | Helm 模板安装 |
| Helm 模板 | nvidia-vgpu |
nvidia-vgpu-commercial |
| 安装参数 | 基本一致 | 基本一致 |
| GPU 模式切换 | 支持切换到 vGPU 模式或 MIG 模式 | 支持切换到 vGPU 模式或 MIG 模式 |
| License | 不需要 | 必须导入 License 并激活 |
功能区别¶
| 功能项 | 开源版 | 商业版 | 说明 |
|---|---|---|---|
| 异构卡支持 | 英伟达全部 | 英伟达全部; PPU 全部; 昇腾 910A、910B2、910B3、910B4、910B4-1、910C(不支持切分)、310P; 沐曦曦云系列 GPU(含 C550/C500/C500X/C290/C280/N260 等型号); 海光; 寒武纪; 燧原; 昆仑芯; 摩尔线程; 天数智芯等 |
— |
| vGPU 资源切分 | 算力切分 | 算力切分; 显存切分 |
— |
| 调度能力 | 对于 NVIDIA GPU: Binpack/Spread 指定 GPU 卡型号 指定具体某一张卡 |
对于 NVIDIA GPU: Binpack/Spread 指定 GPU 卡型号 指定具体某一张卡 任务优先级 |
— |
| 监控能力 | 支持 | 支持 | 可通过 ServiceMonitor 接入可观测性模块 |
| 企业级支持 | 开源社区支持 | 商业支持 | — |
| License 管理 | 无需 License | 需完成 License 激活 | — |
前提条件¶
安装前请确认:
- 参考 GPU 支持矩阵 确认集群节点上具有对应型号的 NVIDIA GPU 卡。
- 当前集群已通过 Helm 应用部署 GPU Operator,具体参考 GPU Operator 离线安装。
- 商业版 HAMi 需提前向 HAMi 方申请 License。
安装步骤¶
商业版 Addon 的安装方式与开源版一致,区别在于 Helm 模板名称和安装后的 License 激活。
-
进入目标集群。
路径:容器管理 -> 集群管理 -> 点击目标集群名称。

-
进入 Helm 模板页面并选择商业版 Addon。
路径:Helm 应用 -> Helm 模板,搜索并选择
nvidia-vgpu-commercial对应 Addon。
-
配置安装参数。
常用参数如下:
参数 说明 deviceCoreScalingGPU 算力使用比例,默认值为 1。大于 1 时表示启用虚拟算力。若配置为 S,则单张 GPU 切分出的 vGPU 总算力为 S × 100%。 deviceMemoryScalingGPU 显存使用比例,默认值为 1。大于 1 时表示启用虚拟显存。若 GPU 物理显存为 M,配置为 S 时,切分出的 vGPU 总显存为 S × M。 deviceSplitCount单张 GPU 最大可切分任务数,默认值为 10。每个 GPU 上最多同时存在 N 个任务(N 为该参数值)。 Resourcesvgpu-device-plugin、vgpu-scheduler 等组件的资源请求与限制。 ServiceMonitor默认不开启。开启后可前往可观测性模块查看 vGPU 相关监控。如需开启,请确保 insight-agent 已安装并处于运行状态,否则将导致 NVIDIA vGPU Addon 安装失败。 如需修改高级参数,可在 YAML 列中直接编辑。
-
提交安装。
-
确认 Addon 相关 Pod 正常运行。
预期结果:HAMi scheduler、device plugin 等组件 Pod 均处于 Running 状态。
-
切换节点 GPU 模式为 vGPU。
从左侧导航栏点击 节点管理,找到目标节点,点击 GPU 模式切换,切换为 vGPU 模式。
Note
NVIDIA 的 vGPU 能力支持节点级别的 GPU 模式切换(整卡/vGPU/MIG 模式),满足同一集群中不同工作负载对 GPU 模式的不同需求。
点击 确定 后,节点状态会变为 GPU 模式切换中。等待切换完成(即 vGPU 的 hami-nvidia-vgpu-device-plugin Pod 启动完毕)后,节点状态会变为 Nvidia-vGPU。
节点 GPU 模式切换成功后,可参考应用使用 Nvidia vGPU 部署工作负载。切换过程稍有延迟,请在节点标签正确显示后再部署应用。
导入 License 并激活¶
商业版 HAMi 安装后,必须导入 License 才能激活商业能力。
获取 License 申请信息¶
安装前或安装后,需按 HAMi 要求准备 License 申请信息(如 GPU UUID 等)。获取申请信息、导入 License 并完成激活的详细步骤,请参考 获取商业版 HAMi License 信息并完成导入。
验证安装¶
完成安装、GPU 模式切换和 License 激活后,可通过以下方式验证:
- 在 节点管理 中确认目标节点 GPU 模式为 Nvidia-vGPU。
- 执行
kubectl get pod -n <HAMi 所在命名空间>,确认相关组件均为 Running。 - 部署测试工作负载,确认可正常申请
nvidia.com/vgpu等资源。