Unifabric概述¶
简介¶
Unifabric 是一个面向高性能计算 (HPC) 和大规模云环境的 RDMA 网络全生命周期监控与管理平台。 其核心目标是解决复杂 RDMA 网络环境中的 可观测性和可操作性 难题,帮助运维人员和开发人员: - 实时掌握 整个网络(交换机、主机、链路)的健康状况和性能指标。 - 快速定位 网络拥塞、丢包等导致应用性能下降的关键问题。 - 提供数据支撑,用于网络的容量规划和性能调优。
快速入门与部署¶
软件提供 helm 安装包部署在 Kubernetes 平台。
软件由 2 大部分组成 Controller 和 Agent。
1. Controller 负责交换机采集和数据整合。
2. Agent 部署在集群的每台主机采集集群主机信息。
核心功能¶
RDMA 拓扑¶
RDMA 拓扑图是 Unifabric 的核心界面之一,提供了对整个 网络的层级展示和设备监控。 该视图支持分层拓扑展示,清晰地显示 Spine、Leaf 交换机、超节点等设备的层次结构,并能实时指示设备间的连接状态。通过这一界面,运维人员可以对网络中的 Spine/Leaf 交换机、计算节点和存储设备 进行集中监控,查看它们的运行数据和健康信息。此外,它还提供了便捷的拓扑跳转能力,允许用户点击超节点区域深入查看详细信息,并通过提供节点列表、算力交换机列表和存储交换机列表等详细清单,支持对所有关键网络组件的基本信息(如 IP、配置)进行快速查询和管理。
超节点 拓扑¶
超节点组拓扑图聚焦于高性能计算环境下的 局部深度分析,通过提供集群切换和超点切换功能,使用户能够快速定位并进入特定的高性能计算组进行分析。该视图以超节点分组视图的形式,展示选定组的内部互联结构,并结合节点状态功能,直观地显示组内计算节点的健康度。同时具备强大的诊断能力,用户可以点击任意链路进入链路性能分析,查看详细报告,同时通过链路列表快速获取所有连接的详细信息,从而有效地诊断和解决组内的网络性能瓶颈和拥塞问题。
Unifabric 功能特性¶
| 功能点 | 详细描述 |
|---|---|
| 分层拓扑展示 | 支持展示 Spine 、Leaf 交换机、超节点组和存储设备的连接架构。 |
| 连接状态指示 | 支持实时显示设备之间的连接状态。连接中断时,连接线将自动消失。 |
| Spine/Leaf 监控 | 支持显示交换机的运行数据和监控指标。 |
| 计算节点监控 | 支持显示计算节点的状态和性能信息。 |
| 存储设备展示 | 支持展示储设备的连接状态。 |
| 算力交换机列表 | 支持详细展示 Spine/Leaf 交换机的角色、管理 IP、端口状态、TX 读写带宽、利用率、启动时间等信息。 |
| 存储交换机列表 | 支持详细展示存储交换机的管理 IP、端口状态、TX 读写带宽和利用率等信息。 |
| 节点列表 | 支持详细显示计算节点的基本信息、RDMA 设备数、Pod 数量及带宽利用率。 |
| 拓扑跳转 | 支持点击超节点区域,查看详细的超节点组拓扑视图。 |
| 集群切换 | 支持集群切换选择。 |
| 超节点切换 | 支持超节点组切换选择。 |
| 超节点分组视图 | 支持展示选定的超节点组的内部互联结构。 |
| 节点状态 | 支持节点健康状态展示。 |
| GPU 互联细节 | 支持展示每个超节点之间的链路连接。 |
| 链路性能分析 | 支持点击任意链路连接路径,显示该链路的实时数据和性能指标。 |
| 链路列表 | 支持显示链路详细信息,包括节点名称、GPU 设备 ID、链路 ID、RX 读写速率、网络错误 (UE) 和拥塞 (CE) 指标。 |