跳转至

如何让集群纳管指定的 GPU 卡

本文介绍如何让集群纳管指定的 GPU 卡。

使用场景

  • 客户服务器资源有限,且部分应用不支持容器部署模式的情况下,需要兼顾传统应用部署和容器化应用部署需求,允许客户纳管一部分的 GPU 卡,并预留一部分 GPU 卡供其传统应用使用。
  • 在故障隔离机制中,device-plugin 能够自动识别并隔离出现故障的 GPU 卡,以确保这些故障卡不会再被调度用于执行任何任务。对于某些可能未被 device-plugin 自动检测到的故障 GPU 卡,可以通过选择性纳管的方式手动隔离。

前提条件

操作步骤

Note

仅 vGPU 模式支持纳管指定的 GPU 卡。

  1. 修改 nvidia-vgpu-hami-device-plugin。点击对 集群 -> 配置与密钥-> 配置项,搜索 nvidia-vgpu-hami-device-plugin,点击名称进入详情。

    config1

  2. 编辑 YAML,填写被过滤的 GPU 卡的 uuid 或者 index 码。过滤后,pod 不会被调度到这些 GPU 卡上。

    filterdevices:设备实例的过滤设备。过滤设备可以是以下值之一:

    • uuid:设备的 UUID
    • index:设备索引

    config2

  3. 重启 nvidia-vgpu-hami-device-plugin

    重启device

  4. 部署工作负载并查看调度情况。

    节点详情

    deploy

评论