Unifabric 安装指南¶
前提条件¶
- Kubernetes 集群:确保您有一个正常运行的 Kubernetes 集群
- Helm 3.x:用于安装 Unifabric
- RDMA 网络环境:需要 RDMA 网络环境,支持 RoCE 协议
- 交换机 LLDP 支持:确保网络交换机已启用 LLDP 协议
安装步骤¶
如果需要使用 RDMA 邻居检测功能,请确保网络交换机已启用 LLDP 协议
1. 节点标签配置¶
Unifabric Controller 只会运行在具有 unifabric.io/deploy=true
的节点上,需要为运行 Unifabric Controller 的节点添加标签:
Unifabric Agent 只应该运行在具有 RDMA 网络能力的节点上,而对于不支持 RDMA 网络能力的节点或虚拟机节点,我们应该为此类节点设置标签: unifabric.io/deploy=false
,禁止运行 Unifabric Agent。
2. 添加 Helm 仓库¶
3. 配置安装参数¶
$ helm upgrade --install unifabric unifabric/unifabric \
--namespace unifabric \
--create-namespace \
--set features.rdmaNeighbor.storageRdmaNicFilter="interface=ens2f0*"
其中 storageRdmaNicFilter
指定节点哪些 RDMA 网卡作为 RDMA 存储网卡。
其他 RDMA 网卡作为 GPU 算力网络网卡,如果未配置本字段,则所有 RDMA 网卡都作为 GPU 算力网络网卡。
4. 验证安装¶
检查 Pod 状态¶
预期输出:
NAME READY STATUS RESTARTS AGE
unifabric-746d4f8d75-qbknh 1/1 Running 0 2m
unifabric-agent-4rpbw 2/2 Running 0 2m
unifabric-agent-fgpkc 2/2 Running 0 2m
注意:unifabric-agent
Pod 包含两个容器:lldpd
和 unifabric-agent
。
-
检查 FabricNode CRD 状态:
查看具体节点的邻居信息:
确认
status.computeNics
和status.storageNics
字段包含正确的 LLDP 邻居信息。 -
验证 ScaleoutGroup 自动分组功能, 检查 ScaleoutLeafGroup CRD:
查看节点是否添加了scaleoutleafgroup 的标签:
-
检查指标是否正常收集:
故障排除¶
参考 故障排除
升级¶
升级 Unifabric 到新版本:
卸载¶
卸载 Unifabric:
如需完全清理,还需要删除 CRD 和命名空间:
监控和可视化¶
如果安装了 Grafana 仪表板,可以通过 DCE Insight 或直接访问 Grafana 来查看 Unifabric 的监控数据和网络拓扑可视化。