DaoCloud 首批通过 CNCF Kubernetes AI Conformance 认证¶
随着 AI/ML 工作负载对计算资源和硬件加速的需求爆发式增长,CNCF 推出 Kubernetes AI Conformance 认证标准,在基础 Kubernetes Conformance 认证之上,定义了 AI 场景专属的功能、API 和配置要求,为 AI 工作负载的跨环境移植、高效运行提供统一基准。
Note
值得注意的是,各企业的 Kubernetes 定制化平台或发行版想要证明其在 AI/ML 场景下的能力和可靠性, 必须先获得 Kubernetes Conformance 认证,才能再申请 AI Conformance 认证。
作为国内开源事业的领军企业,DaoCloud 紧跟云原生 AI 发展潮流。在社区推出 Kubernetes AI Conformance 合规标准后,率先针对目前广泛使用的 Kubernetes v1.33 启动 DCE 5.0 平台的 AI Conformance 测试,并于 2025 年 10 月成功通过认证, 成为国内首个在该版本获得认证的企业级 AI/ML 平台。
DCE 5.0 是一款高性能、可扩展的云原生智能操作系统,可在任意基础设施和环境中提供一致、稳定的体验,支持异构云、边缘云与多云编排。 平台集成服务网格与微服务技术,实现全链路流量可追踪,并通过智能监控和动态可视化仪表盘,让集群、节点、应用与服务的健康状态清晰可见; 原生支持 DevOps 和 GitOps 模式,实现应用交付标准化与自动化,并内置精选数据库与中间件,使运维更高效智能。 模块化设计确保各功能独立解耦、灵活升级无影响,同时可与丰富云原生生态产品对接,提供完整解决方案。经过近千家客户生产环境验证, DCE 5.0 构建了可靠的数字底座,助力企业释放云原生生产力,迈向智能化、AI 驱动的数字未来。
AI Conformance 合规项说明¶
AI Conformance 认证合规项分为 MUST(必需)和 SHOULD(建议)两类,全面覆盖 AI 工作负载关键需求:
- MUST 必需项: 聚焦加速器资源分配、AI 推理网络入口、Gang 调度、自动扩缩容、性能监控、安全访问等核心能力,确保平台能稳定支撑 AI 训练与推理基础场景。
- SHOULD 建议项: 延伸至 GPU 共享、高性能存储、拓扑感知调度、机密计算等进阶功能,助力平台实现 AI 场景的优化升级。
MUST 必需项¶
| 类别 | 项目 | 功能要求 | 测试要求 |
|---|---|---|---|
| 加速器 | 加速器资源暴露与分配 | 支持动态资源分配 (DRA) API,以便实现比简单计数更灵活、精细的资源请求 | 验证所有 resource.k8s.io/v1 DRA API 资源是否启用 |
| 网络 | AI 推理高级入口 | 支持 Kubernetes Gateway API,并实现推理服务的高级流量管理 | 验证所有 gateway.networking.k8s.io/v1 Gateway API 资源是否启用 |
| 调度与编排 | Gang 调度 | 平台必须允许安装并成功运行至少一个 Gang 调度方案 | 供应商需证明其平台可以成功运行至少一个 Gang 调度方案 |
| AI 工作负载有效自动扩缩 | 集群自动扩缩器必须支持基于加速器类型扩缩节点组 | 配置节点池并创建 (A*N)+1 个请求加速器的 Pod,验证自动扩缩行为 | |
| 支持 HorizontalPodAutoscaler,对使用加速器的 Pod 正确扩缩 | 配置自定义指标管道、Deployment 和 HPA,施加负载验证扩缩 | ||
| 可观测性与遥测 | 加速器性能指标 | 支持安装至少一个加速器指标方案,暴露精细性能指标 | 抓取 Prometheus 兼容指标端点并验证每个加速器指标 |
| AI 作业与推理服务指标 | 提供监控系统收集标准格式指标 | 部署应用,生成流量,验证监控系统收集关键指标 | |
| 安全 | 安全加速器访问 | 确保容器内访问加速器隔离性与受控性 | 部署 Pod 验证未授权访问被拒绝 |
| AI 框架与 Operator 支持 | 稳健的 CRD 与控制器操作 | 支持至少一个复杂 AI Operator 可安装并可靠运行 | 部署 Operator,验证 Pod、Webhook 和 CRD 正确运行 |
SHOULD 建议项¶
| 类别 | 项目 | 功能要求 |
|---|---|---|
| 加速器 | 加速器驱动与运行时管理 | 提供可验证机制,确保兼容的加速器驱动及对应容器运行时配置正确安装和维护 |
| 广告已安装加速器驱动版本,并通过 DRA 属性暴露 | ||
| GPU 共享 | 若支持 GPU 共享,提供明确机制提升未使用完整 GPU 的工作负载利用率 | |
| 虚拟化加速器 | 若平台支持虚拟化加速器(如 vGPU),应通过 DRA 暴露并可管理 | |
| 硬件拓扑感知 | 节点硬件拓扑信息(加速器与高性能网卡的物理布局)应可发现,并通过 DRA 属性暴露 | |
| 存储 | 高性能存储 | 高 IOPS/吞吐量的块/文件存储应通过 StorageClass 暴露 |
至少提供一个支持 ReadWriteMany 的高性能 CSI 驱动 StorageClass |
||
| 镜像拉取优化 | 支持大容器镜像快速拉取机制,如镜像缓存、镜像流式传输等 | |
| AI 工作负载数据缓存 | 提供机制在计算节点附近缓存频繁访问的数据 | |
| 网络 | 高性能 Pod 间通信 | 利用 DRA 将 Pod 附加到多个网络接口,使高性能网络特性可发现 |
| AI 推理高级入口 | 支持 Gateway API 推理扩展,实现模型托管、LLM 服务及高级路由 | |
| 网络策略执行 | 支持已安装并激活的 Network Policy 提供器,默认执行用户定义的 NetworkPolicy |
|
| 调度与编排 | 批处理作业增强管理 | 支持通过 JobSet API 管理紧密依赖的 Kubernetes Job |
| 支持队列、资源公平共享和 Gang 调度的 Kueue API | ||
| AI 工作负载有效自动扩缩 | 支持异构节点组管理,允许工作负载表达亲和性/反亲和性或污点/容忍度 | |
| 加速器拓扑感知调度 | 若加速器互联可发现,调度框架应支持拓扑感知调度 | |
| 安全 | 安全工作负载认证 | 提供可验证机制确保 AI 工作负载安全访问服务,无需长期静态凭证 |
| AI 机密计算 | 支持在硬件可信执行环境 (TEE) 内部署机密容器 | |
| AI 软件与模型供应链安全 | 确保 Admission Control 可结合 Sigstore/Cosign 和策略引擎实施安全策略 | |
| 不可信代码沙箱化 | 提供强隔离的沙箱运行机制,保护进程、内存和网络 | |
| 维护与修复 | 故障设备检测 | 提供检测故障设备并可选自动修复的机制 |
| 早期维护通知 | 提供提前计划的维护通知机制 | |
| 高度互联节点的 Gang 维护 | 支持高度互联节点的 Gang 维护,最小化影响 |
Note
上述合规项及分类可能会随行业发展、标准更新和版本迭代而调整,仅供参考,不构成最终版本。 具体请参阅 cncf/ai-conformance README。
通过认证的平台可获得 CNCF 官方授权使用 AI Conformance 标识,成为行业认可的 AI 友好型 Kubernetes 发行版。
DaoCloud 领跑国内,跻身全球首批认证阵营¶
在 Kubernetes v1.33 中,率先通过认证的企业仅寥寥数家, DaoCloud DCE 平台与 Red Hat Openshift、SUSE RKE2 等国际知名平台共同入选,彰显了中国企业在云原生 AI 领域的技术实力:
- DaoCloud 的 DCE 平台
- NeoNephos Foundation 的 Gardener
- Giant Swarm 自有平台
- Red Hat 的 Openshift 容器平台
- SUSE 的 RKE2
- Sidero Labs 的 Talos Linux
DCE 5.0 此次通过认证,意味着其能为企业提供兼容标准、可移植、高可靠的 AI 运行环境,无论是大规模模型训练、高性能推理还是 MLOps 流水线部署,都能实现高效承载与灵活扩展。未来,DaoCloud 将持续深耕云原生 AI 生态,为企业 AI 数字化转型提供更坚实的技术底座。