InferX 介绍¶

InferX 是一款云原生的 AI 推理引擎扩展与管理工具，旨在简化大模型（LLM）在 Kubernetes 集群上的部署、调度与运维。它深度集成了 Kubernetes 生态系统中的高性能网络与存储能力，为用户提供稳定、可扩展的推理服务基础设施。

核心能力¶

高性能推理网络: 基于 Kubernetes Gateway API Inference Extension (GAIE)，支持高性能的推理请求路由与流量管理。
灵活的模型管理: 支持通过 Dataset (BaizeAI) 自动下载与挂载模型权重，同时兼容 PVC、NFS 等多种存储方式。
多种硬件适配: 深度优化了针对 NVIDIA GPU 的调度与显存管理方案（支持 HAMi vGPU）。
离线环境友好: 提供完整的离线安装包与同步工具，满足私有云及离线环境的部署需求。
多模型框架支持: 兼容 vLLM 等主流推理框架，支持快速将模型对外暴露为标准 OpenAI 兼容接口。