跳转至

功能列表

本页列出了可观测性 Insight 的功能特性,欢迎使用。

社区版 - 可观测性

DCE 5.0 社区版提供了以下可观测功能。

类别 子类 描述
资源监控 多集群监控 提供多集群业务集中可观测
管理员统一管理多集群告警,且满足集群、租户管理员数据隔离
支持持久化集群的指标、日志数据。
场景监控 提供对单个集群的监控概览,可查看该集群的运行状态、了解集群的资源使用情况,以及当前集群正在发生的告警
节点监控 支持查看节点运行状态等,并了解该节点的 CPU、内存、网络等资源变化情况
容器监控 支持对无状态负载、守护进程、容器组等资源进行监控,可以监控该工作负载的运行状态,可查看正在告警的数量以及 CPU、内存等资源消耗的变化趋势图
仪表盘 平台组件监控 通过原生 Grafana 提供开源精选仪表盘,提供内置仪表盘支持对 etcd、APIServer 等组件进行监控
集群资源监控 对集群、节点、命名空间等多维度提供监控。Grafana 使用的数据源支持查看多集群的数据。
数据查询 指标查询 普通查询预订了基础指标,选择集群、类型、节点、指标名称等查询条件后可查询资源的变化趋势
支持通过原生 PromQL 语句,查询指标图表及数据详情
日志查询 可查询 Node、Pod、Depoyment 、Statefulset 等日志,可查询单条日志的上下文内容
支持按照关键字进行搜索
默认按照时间排序,通过直方图可查询日志数量的变化趋势
支持查询单条日志的详细信息及上下文
日志下载 支持根据搜索条件下载一段时间内的日志
支持导出单条日志上下文的内容
告警中心 活动告警 提供直方图查看告警时间的变化趋势
支持查看所有正在告警的规则及详情
历史告警 可查询自动恢复或手动被解决后的所有告警
告警规则 内置 100+ 告警规则,对集群组件、容器资源等提供预定义的告警规则
管理员可创建全局告警规则,对已安装 insight-agent 的集群进行统一告警
支持通过预定义指标创建告警规则
支持通过编写 PromQL 语句创建告警规则
支持自定义阈值、持续时间及通知方式
可自定义告警的级别,支持紧急、警告、提示三个等级
通知配置 在通知配置页面,可以配置通过邮件组、企业微信、钉钉、Webhook 等方式向用户发送消息
支持同时通知到多个告警对象
消息模板 消息模板功能支持自定义消息模板的内容,并可邮件、企业微信、钉钉、Webhook 的形式通知指定的对象
日志采集和查询 统一日志采集 统一采集节点、容器、容器内、k8s 事件的日志数据
采集全局管理平台的审计操作,默认不开启采集 k8s 审计日志
日志持久化存储 日志可标注输出到 Elasticsearch等中间件进行持久化
指标采集 指标数据采集 支持通过使用 ServiceMonitor 自行定义 Pod 发现的 Namespace 范围以及通过 matchLabel 来选择监听的 Service
系统配置 系统配置 系统配置展示指标、日志、链路默认的保存时长以及默认的 Apdex 阈值
支持自定义修改指标、日志、链路数据的存储时间
系统组件 提供对可观测组件的统一监控,实时检测系统组件的健康状态

商业版 - 可观测性

在社区版的基础上,DCE 5.0 商业版提供了更加丰富和可定制的可观测功能。

类别 子类 描述
资源监控 多集群监控 提供多集群业务集中可观测
管理员统一管理多集群告警,且满足集群、租户管理员数据隔离
支持持久化集群的指标、日志数据。
集群监控 提供对单个集群的监控概览,可查看该集群的运行状态、了解集群的资源使用情况,以及当前集群正在发生的告警
节点监控 支持查看节点运行状态等,并了解该节点的 CPU、内存、网络等资源变化情况
容器监控 支持对无状态负载、守护进程、容器组等资源进行监控,可以监控该工作负载的运行状态,可查看正在告警的数量以及 CPU、内存等资源消耗的变化趋势图
场景监控 服务监控1 可查看服务的实时吞吐量、请求数、请求延时和错误率等关键指标,以及一段时间的变化趋势
可查看该服务一段时间内的请求,以及单个请求的实时吞吐量、请求数、请求延时和错误率的变化趋势
拓扑图1 管理员可查看接入观测平台和链路采集的服务间的调用关系、健康状态,快速的故障定位
可查看服务间请求的流量方向和关键指标
可快速查看单个服务的实时吞吐量、请求数、请求延时和错误率
仪表盘 平台组件监控 通过原生 Grafana 提供开源精选仪表盘,提供内置仪表盘支持对 etcd、APIServer 等组件进行监控
集群资源监控 对集群、节点、命名空间等多维度提供监控。Grafana 使用的数据源支持查看多集群的数据。
数据查询 指标查询 普通查询预订了基础指标,选择集群、类型、节点、指标名称等查询条件后可查询资源的变化趋势
支持通过原生 PromQL 语句,查询指标图表及数据详情
日志查询 可查询 Node、Pod、Depoyment 、Statefulset 等日志,可查询单条日志的上下文内容
支持按照关键字进行搜索
默认按照时间排序,通过直方图可查询日志数量的变化趋势
支持查询单条日志的详细信息及上下文
日志下载 支持根据搜索条件下载一段时间内的日志
支持导出单条日志上下文的内容
链路查询1 通过链路查询可查看服务在一段时间内的所有请求,支持配置集群、命名空间、服务、操作、标签后点击搜索进行精准搜索
支持查看单个请求的聚合链路图,实现快速的故障定位
告警中心 活动告警 提供直方图查看告警时间的变化趋势
支持查看所有正在告警的规则及详情
历史告警 可查询自动恢复或手动被解决后的所有告警
告警规则 内置 100+ 告警规则,对集群组件、容器资源等提供预定义的告警规则
管理员可创建全局告警规则,对已安装 insight-agent 的集群进行统一告警
支持通过预定义指标创建告警规则
支持通过编写 PromQL 语句创建告警规则
支持自定义阈值、持续时间及通知方式
可自定义告警的级别,支持紧急、警告、提示三个等级
通知配置 在通知配置页面,可以配置通过邮件组、企业微信、钉钉、Webhook 等方式向用户发送消息
支持同时通知到多个告警对象
消息模板 消息模板功能支持自定义消息模板的内容,并可邮件、企业微信、钉钉、Webhook 的形式通知指定的对象
日志采集和查询 统一日志采集 统一采集节点、容器、容器内、k8s 事件的日志数据
采集全局管理平台的审计操作,默认不开启采集 k8s 审计日志
日志持久化存储 日志可标注输出到 Elasticsearch 等中间件进行持久化
指标采集 指标数据采集 支持通过使用 ServiceMonitor 自行定义 Pod 发现的 Namespace 范围以及通过 matchLabel 来选择监听的 Service
组件状态1 支持查看采集组件的容器组的状态,并跳转到对应的容器组详情
链路采集1 链路数据采集 支持通过使用 OTEL SDK 非侵入或者少侵入的方式实现链路数据的采集
支持通过在网格应用中注入 Sidecar 的方式采集链路数据
系统配置 系统配置 系统配置展示指标、日志、链路默认的保存时长以及默认的 Apdex 阈值
支持自定义修改指标、日志、链路数据的存储时间
系统组件 提供对可观测组件的统一监控,实时检测系统组件的健康状态

  1. 这是商业版才提供的功能。 

评论