Unifabric 概述¶

Unifabric 是一款面向 高性能计算（HPC）与 AI 云平台 的 RDMA 网络可观测性与自动化运维平台 。它专为 RDMA 网络环境（如 RoCE）设计，帮助用户实现从底层链路到上层计算节点的 网络拓扑可视化、性能监控分析与智能诊断 。

Unifabric 致力于解决 RDMA 网络“看不见、查不出、调不准”的痛点，助力用户：

快速部署¶

Unifabric 基于 Kubernetes 原生架构，提供标准 Helm Chart，支持在任意兼容 Kubernetes 集群中快速部署。

平台由两部分组成：

组件	职责
Controller	负责拓扑构建与交换机数据采集
Agent	部署在每台主机上，采集节点 RDMA 状态与链路信息

RDMA

ScaleUP

pod

模块	能力描述
拓扑可视化	分层展示 Spine / Leaf / 计算节点 / 存储设备拓扑
链路状态自动感知	实时更新网络连接状态，断链自动隐藏
节点监控	展示 GPU 节点状态、RDMA 网卡数量、带宽使用情况
交换机监控	支持算力交换机与存储交换机的端口状态、带宽、利用率展示
链路性能分析	查看任意链路的实时带宽、CE/UE 错误、互联 GPU 信息
超节点组视图	展示组内节点互联结构，支持点击查看链路详情
多集群支持	支持多 Kubernetes 集群统一接入和跨集群网络视图
Grafana 集成	内置监控仪表盘，支持自定义图表与指标查询
自动分组	基于网络拓扑自动将节点划分为可调度分组
故障诊断辅助	发现链路异常、交换机端口异常、节点连接不一致问题

Unifabric 适用于以下典型场景：

想了解如何部署？ 请查看安装指南

想了解如何采集和监控链路指标？ 查看延时监控使用指南