跳转至

AI Lab Release Notes

本页列出 AI Lab 各版本的 Release Notes,便于您了解各版本的演进路径和特性变化。

Note

标记为 Beta 的功能更新,在使用时请多注意,如遇问题请及时反馈。

2025-03-31

v0.15.1

新增 训练推理任务选择多 GPU 卡时可对共享内存进行配置 新增 vLLM 框架添加 API Key 的能力 修复 训练任务 RDMA 标签未按预期添加的问题 修复 训练任务无基础配置时导致崩溃的问题 修复 CVE-2025-22870,CVE-2024-45337 安全漏洞 修复 由于 notebook 中依赖版本过新导致标注实例无法正常运行的问题 修复 训练任务 TAS 开启的问题(该功能所依赖的 Kueue 版本尚未正式发布,如需体验该功能请咨询产品研发) 修复 在数据库为 kingbase 以及 postgresql 时产品界面功能异常的问题 修复 Triton 框架更新 API Key 功能异常的问题 优化 训练任务镜像默认选择 notebook 镜像交互体验 优化 创建数据集前的环境检测,避免集群中没有默认 storageClassName 导致数据集无法运行的情况 优化 为避免使用风险,移除 mamba 的 defaults 的 channel 优化 升级 vLLM 框架镜像至 0.7.3 版

2025-02-28

v0.14.1

  • 新增 训练任务支持启用 RDMA 配置。
  • 新增 数据集支持添加 HF_ENDPOINT 环境变量。
  • 新增 监控面板添加时间区间选择功能。
  • 优化 升级 vLLM 镜像至 0.7.1 版(支持 DeepSeek)。
  • 优化 升级 Kueue 至 0.10.1 版。
  • 修复 监控面板图例颜色不符合预期的问题。
  • 修复 运维管理概览页面中 GPU 资源图表显示错误问题。

2025-01-31

v0.13.0

  • 优化 默认 vllm 镜像升级至 0.6.6 以提高训练和推理任务的兼容性。
  • 修复 训练任务配置断点续训但是任务详情中仍为未启用状态的问题。
  • 修复 训练任务监控 GPU 使用率始终是 no data 的问题。
  • 修复 不存在默认资源池的情况下界面操作无法进行的问题。

2024-12-31

v0.12.0

  • 新增 支持队列自定义资源池。
  • 新增 沐曦 GPU 监控看板,丰富 GPU 观测指标。
  • 修复 漏洞 CVE-2024-45337, CVE-2024-45338。
  • 修复 无法正常创建数据集问题。

2024-11-30

v0.11.0

  • 新增 Notebook数据集训练任务以及 推理服务 状态详情展示,提高异常处理效率。
  • 新增 运维控制台内,队列管理可在队列详情页面查看所有使用了队列的资源。
  • 优化 优化数据集更新交互。

2024-10-31

v0.10.0

功能

  • 新增 训练任务 支持在配置 vGPU 资源时指定使用的显卡类型。
  • 新增 数据集 支持 Huggingface 数据源,可下载其海量模型和数据集。
  • 新增 数据集 支持 Modelscope 数据源,可下载其海量模型和数据集。
  • 新增 支持 数据集跨命名空间 引用能力。
  • 新增 推理服务 支持在配置 vGPU 资源时指定使用的卡类型。
  • 新增 运维控制台 GPU 管理模块,支持查看卡级别的监控和指标信息。
  • 新增 适配 沐曦 GPU 卡。

优化

  • 优化 数据集更新界面,提供更多配置更新能力。
  • 优化 调整了 Notebook 的入口位置,提升访问便捷性。

2024-09-30

v0.9.0

Note

产品模块名称从 智能算力 升级为 AI Lab

  • 新增 全新数据管理子模块 数据标注 ,可管理主流数据类型的数据标注能力。
  • 新增 全新模型管理子模块 模型列表 ,可快速创建模型,支持模型多版本管理。
  • 新增 数据集 创建时可指定使用 PVC 存储空间大小。
  • 新增 支持 训练任务 一键重启。
  • 新增 baize-notebook 基础镜像升级到 v0.9.0。
  • 优化 支持 集群异常时,全局提醒同时保证数据可用。

2024-08-31

v0.8.0

  • 新增 [Beta] 支持 Notebook 运行中时,手工保存为镜像(依赖镜像仓库模块)。
  • 新增 [Beta] 支持 Notebook 关闭时自动保存为镜像(依赖镜像仓库模块)。
  • 新增 支持 Notebook 镜像通过表单选择镜像仓库内的私有镜像。
  • 新增 支持 Notebook 配置 数据输入数据输出,可直接关联数据集。
  • 新增 支持 Notebook 配置以 Root 身份启动。
  • 新增 支持 训练任务 配置 数据输入数据输出,可直接关联数据集。
  • 新增 [Beta] 支持 训练任务 支持配置 断点续训,自动检测任务故障后自动修复。
  • 新增 支持 训练任务 镜像通过表单选择镜像仓库内的私有镜像。
  • 新增 支持 训练任务 详情增加展示任务参数信息。
  • 新增 环境管理 可查询预热进度,并支持快速调试入口。
  • 新增 支持 推理任务 详情增加服务调用监控。
  • 新增 baize-notebook 基础镜像升级到 v0.8.0。

2024-07-31

v0.7.0

  • 新增 支持 数据集 创建数据集后可查询预热进度,并支持快速调试入口。
  • 新增 支持 训练任务 创建 MxNet 单机和分布式任务。
  • 新增 支持 训练任务 创建 MPI 分布式任务。
  • 新增 支持 训练任务 支持默认镜像,统一使用基础镜像。
  • 新增 支持 训练任务 启动命令可直接配置启动脚本。
  • 新增 支持 训练任务 运行参数指定工作目录位置。
  • 新增 支持 推理任务 详情展示 API 调用示例文档。
  • 优化 环境管理 列表展示环境有的包管理器及 Python 版本。

2024-07-10

v0.6.1

  • 修复 创建推理服务时,推理框架选择使用 Triton ,托管引擎缺少 vLLM 选项。

2024-06-30

v0.6.0

功能

  • 新增 支持 创建 Code 类型的 Notebook,提供原生 VS Code 开发体验。
  • 新增 支持 快速复制 Notebook
  • 新增 支持 在选择工作集群时,展示集群的状态信息,当失联或离线时不可选择。
  • 新增 支持 创建推理服务时,使用 vLLM 作为推理引擎,暴露原生 vLLM 能力。
  • 新增 支持 创建推理服务时,vLLM 支持配置 Lora 推理参数。
  • 优化 创建 Notebook 时,队列优先级默认值调整为

修复

  • 修复 Tensorboard 最小资源限制,避免因资源不足导致 Tensorboard 启动失败。
  • 修复 优化任务状态中文描述,避免因状态描述不清晰导致的误解。

2024-05-30

v0.5.0

功能

  • 新增 支持 baizectl 创建任务时同时增加 Tensorboard 分析看板。
  • 新增 支持 Job 绑定 环境管理 中创建的自定义环境。
  • 新增 优化 环境管理 中进行自定义环境配置更新、优化 Python 版本选择器等。
  • 新增 支持 推理服务 详情,查看模型运行时的资源监控看板。
  • 新增 支持 推理服务 绑定 环境管理 中创建的自定义环境。

修复

  • 修复 环境管理中少数情况下 Python 版本提示权限问题情况。
  • 修复 推理服务在异常时不支持停止的问题。

2024-04-30

v0.4.0

功能

  • 新增 Notebook 支持本地 SSH 访问,适配多种开发工具,如 PycharmVS Code 等。
  • 新增 升级 Notebook 镜像,支持内置 CLI 工具 baizectl,命令行提交和管理任务。
  • 新增 Notebook 增加亲和性调度策略配置。
  • 新增 分布式训练任务,可界面化配置 SHM size
  • 新增 训练任务一键重启功能。
  • 新增 模型训练任务支持自定义指定集群调度器。
  • 新增 训练任务分析工具 Tensorboard 支持,可在 Notebook 与训练任务中一键启动。
  • 新增 队列配额编辑时,提示当前工作空间的共享资源配置。
  • 新增 升级适配 Kueue 版本 v0.6.2

修复

  • 修复 Notebook CRD 偶现配置同步异常问题。
  • 修复 Notebook 亲和性配置参数查询接口未返回。

2024-04-01

v0.3.0

  • 新增 发布 Notebook 模块,支持 Jupyter Notebook 等开发工具。
  • 新增 发布任务中心模块,支持多种主流开发框架 PytorchTensorflowPaddle 任务训练。
  • 新增 发布模型推理服务模块,支持快速部署 Model Serving,支持任意模型算法与大语言模型。
  • 新增 发布数据管理模块,支持接入 S3NFSHTTPGit 等主流数据源,并支持自动数据预热。

评论