跳转至

Unifabric 概述

Unifabric 是一款面向 高性能计算(HPC)与 AI 云平台RDMA 网络可观测性与自动化运维平台 。它专为 RDMA 网络环境(如 RoCE)设计,帮助用户实现从底层链路到上层计算节点的 网络拓扑可视化、性能监控分析与智能诊断

Unifabric 致力于解决 RDMA 网络“看不见、查不出、调不准”的痛点,助力用户:

  • 全局掌握网络拓扑结构与实时状态
  • 快速定位延迟、丢包、拥塞等性能瓶颈
  • 构建稳定、高效、可扩展的 RDMA 网络基础设施

快速部署

Unifabric 基于 Kubernetes 原生架构,提供标准 Helm Chart,支持在任意兼容 Kubernetes 集群中快速部署。

平台由两部分组成:

组件 职责
Controller 负责拓扑构建与交换机数据采集
Agent 部署在每台主机上,采集节点 RDMA 状态与链路信息

核心能力一览

1. RDMA 网络全景拓扑

  • 自动构建 Spine-Leaf-节点 分层拓扑
  • 动态展示交换机、计算节点、存储设备之间的连接关系
  • 支持链路健康状态实时变更,断链自动感知

RDMA

2. 超节点组可视化

  • 支持按逻辑超节点分组展示 GPU 计算集群内部结构
  • 展示组内节点间 GPU RDMA 网络拓扑
  • 支持点击链路查看性能指标,辅助问题定位

ScaleUP

3. 网络监控与链路分析

  • 实时采集交换机端口状态、带宽、利用率、错误码等指标
  • 支持查看链路的 RX/TX 带宽、拥塞(CE)、错误(UE)等数据
  • 提供链路性能分析视图,支持链路历史趋势分析

pod

4. 自动分组与智能诊断

  • 基于 LLDP + RDMA 拓扑,自动将网络结构一致的节点分组
  • 检测链路异常、网卡状态异常、节点间链路不一致等问题
  • 支持节点健康度评估与标签标注,辅助调度系统优化资源使用

功能亮点总览

模块 能力描述
拓扑可视化 分层展示 Spine / Leaf / 计算节点 / 存储设备拓扑
链路状态自动感知 实时更新网络连接状态,断链自动隐藏
节点监控 展示 GPU 节点状态、RDMA 网卡数量、带宽使用情况
交换机监控 支持算力交换机与存储交换机的端口状态、带宽、利用率展示
链路性能分析 查看任意链路的实时带宽、CE/UE 错误、互联 GPU 信息
超节点组视图 展示组内节点互联结构,支持点击查看链路详情
多集群支持 支持多 Kubernetes 集群统一接入和跨集群网络视图
Grafana 集成 内置监控仪表盘,支持自定义图表与指标查询
自动分组 基于网络拓扑自动将节点划分为可调度分组
故障诊断辅助 发现链路异常、交换机端口异常、节点连接不一致问题

应用场景

Unifabric 适用于以下典型场景:

  • AI 模型训练平台:监控 GPU 节点间通信链路,提升训练效率
  • 高性能计算集群(HPC):及时发现网络瓶颈,保障计算任务稳定运行
  • RDMA 存储接入场景:监控 GPU 与存储设备之间的 RDMA 通道健康性
  • 多租户 AI 云平台:支持多集群资源同步接入,统一展示网络状态

为什么选择 Unifabric?

  • 专为 RDMA 网络打造,支持 RoCE 协议和 LLDP 拓扑发现
  • 全生命周期可观测性:从节点、链路、交换机到拓扑自动识别
  • Kubernetes 原生集成:支持 CRD 管理,自动化运维
  • 丰富的监控指标:内置 Prometheus & Grafana 支持
  • 智能分组与诊断引擎:助力网络性能调优和资源调度优化

下一步?

想了解如何部署? 请查看安装指南

想了解如何采集和监控链路指标? 查看延时监控使用指南

评论