跳转至

Unifabric概述

简介

Unifabric 是一个面向高性能计算 (HPC) 和大规模云环境的 RDMA 网络全生命周期监控与管理平台。 其核心目标是解决复杂 RDMA 网络环境中的 可观测性和可操作性 难题,帮助运维人员和开发人员: - 实时掌握 整个网络(交换机、主机、链路)的健康状况和性能指标。 - 快速定位 网络拥塞、丢包等导致应用性能下降的关键问题。 - 提供数据支撑,用于网络的容量规划和性能调优。

快速入门与部署

软件提供 helm 安装包部署在 Kubernetes 平台。
软件由 2 大部分组成 Controller 和 Agent。
1. Controller 负责交换机采集和数据整合。 2. Agent 部署在集群的每台主机采集集群主机信息。

核心功能

RDMA 拓扑

RDMA 拓扑图是 Unifabric 的核心界面之一,提供了对整个 网络的层级展示和设备监控。 该视图支持分层拓扑展示,清晰地显示 Spine、Leaf 交换机、超节点等设备的层次结构,并能实时指示设备间的连接状态。通过这一界面,运维人员可以对网络中的 Spine/Leaf 交换机、计算节点和存储设备 进行集中监控,查看它们的运行数据和健康信息。此外,它还提供了便捷的拓扑跳转能力,允许用户点击超节点区域深入查看详细信息,并通过提供节点列表、算力交换机列表和存储交换机列表等详细清单,支持对所有关键网络组件的基本信息(如 IP、配置)进行快速查询和管理。

超节点 拓扑

超节点组拓扑图聚焦于高性能计算环境下的 局部深度分析,通过提供集群切换和超点切换功能,使用户能够快速定位并进入特定的高性能计算组进行分析。该视图以超节点分组视图的形式,展示选定组的内部互联结构,并结合节点状态功能,直观地显示组内计算节点的健康度。同时具备强大的诊断能力,用户可以点击任意链路进入链路性能分析,查看详细报告,同时通过链路列表快速获取所有连接的详细信息,从而有效地诊断和解决组内的网络性能瓶颈和拥塞问题。

Unifabric 功能特性

功能点 详细描述
分层拓扑展示 支持展示 Spine 、Leaf 交换机、超节点组和存储设备的连接架构。
连接状态指示 支持实时显示设备之间的连接状态。连接中断时,连接线将自动消失。
Spine/Leaf 监控 支持显示交换机的运行数据和监控指标。
计算节点监控 支持显示计算节点的状态和性能信息。
存储设备展示 支持展示储设备的连接状态。
算力交换机列表 支持详细展示 Spine/Leaf 交换机的角色、管理 IP、端口状态、TX 读写带宽、利用率、启动时间等信息。
存储交换机列表 支持详细展示存储交换机的管理 IP、端口状态、TX 读写带宽和利用率等信息。
节点列表 支持详细显示计算节点的基本信息、RDMA 设备数、Pod 数量及带宽利用率。
拓扑跳转 支持点击超节点区域,查看详细的超节点组拓扑视图。
集群切换 支持集群切换选择。
超节点切换 支持超节点组切换选择。
超节点分组视图 支持展示选定的超节点组的内部互联结构。
节点状态 支持节点健康状态展示。
GPU 互联细节 支持展示每个超节点之间的链路连接。
链路性能分析 支持点击任意链路连接路径,显示该链路的实时数据和性能指标。
链路列表 支持显示链路详细信息,包括节点名称、GPU 设备 ID、链路 ID、RX 读写速率、网络错误 (UE) 和拥塞 (CE) 指标。

评论