1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.5.5 | - |
V1.5.6 | 系统健康观测界面展示优化 1)请求并发量和在线用户数,优化为并发峰值和并发用户峰值 2)各指标图支持互相「定位当前时间」 3)各指标图支持拖动调整时间区间 4)各指标图支持放大查看 |
V1.5.8 | 新增「占用高内存的资源」清单 |
V1.5.9 | 1)新增「健康巡检」强提醒按钮 2)各指标图和明细表标题联动显示时间点,快速定位时间 |
V1.10.0 | 1)新增模块切换、请求类型筛选等全局控件 2)「节点情况明细表」更名为「节点概况表」 |
V1.12.0 | 为确保精确定位链路信息,系统健康观测联动跳转链路详情时,部分跳转项从「首屏链路」调整为「调用链路」 |
V2.3.0 | 该版本优化了性能指数APDEX计算逻辑,提高性能标准,对性能波动更敏锐 本次逻辑优化,旨在为用户提供更好的性能体验,支持更好的体现用户的真实体验,更加凸显「鉴权慢」等场景对用户造成的不佳体验 |
1.2 功能简介
运维平台提供系统健康观测仪表盘,对系统的健康状态和运行状态进行智能化监测。
系统健康观测仪表盘,主要站在用户体验的角度,观测系统的稳定情况、性能情况、运维人效等。并通过观测请求,输出问题请求所在的主体(仪表板、模板等)。
2. 功能简介
2.1 使用前提
「健康观测」依赖链路追踪功能,请先确保开启链路追踪、配置全局设置等。
详情请参见:链路追踪使用前提
2.2 功能入口
1)管理员登录FineOps运维平台,选择运维项目,点击「项目监控>健康观测」。
2)用户可点击筛选不同请求类型。
请求类型影响指标数据、健康状况、用户使用统计、 节点概况表。
请求类型 | 说明 |
---|---|
全部 | 包括下文所有请求类型 |
配置类 | 打开目录、搜索、计算权限等平台操作行为的请求 非数据类、资源类的其他请求,均为配置类 |
数据类 | 访问报表、数据表,查看数据结果的相关请求 |
资源类 | 前端JS、CSS、字体、图标等静态资源请求 |
3)用户可点击切换指定监控时间范围。
时间范围 | 说明 |
---|---|
实时监控 | 1)当观测内容为「关键指标」和「占用高内存的资源」时: 时间范围为过去24小时内 2)当观测内容为「趋势分析」和「问题请求列表」时: 时间范围可选过去1h、6h、12h、24h、72h |
历史分析 | 时间范围可选过去任一月份 |
3. 关键指标
界面说明:
展示五个重点指标。指标值如有异常,会显示为红色。
指标说明:
指标 | 具体说明 |
---|---|
综合健康指数 | 1)指标说明:用于表示系统健康程度的综合指标 2)计算逻辑: 综合健康得分=(满意请求数+可容忍请求数/2)/总请求数)*100% 满意请求:耗时<3s且成功的请求 可容忍请求:3s<=耗时<12s、且成功的请求 3)计算范围: 实时监控:过去24小时内 历史分析:所选当月范围内 4)建议值:建议保持在95%以上 |
性能指数APDEX | 1)指标说明:用于评估应用性能的行业标准 性能指数APDEX,作为运维平台的重点观测指标,在一年多的指标观测和用户调研打磨下,帆软对产品性能提出了更高的要求 V2.3.0 版本优化了性能指数APDEX计算逻辑,提高性能标准,对性能波动更敏锐 本次逻辑优化,旨在为用户提供更好的性能体验,支持更好的体现用户的真实体验,更加凸显「鉴权慢」等场景对用户造成的不佳体验 帆软将不遗余力的优化改进产品,为广大用户提供更好的性能体验 2)计算逻辑: APDEX=(满意请求数+可容忍请求数/2)/总请求数 )*100% 满意请求:耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求 可容忍请求:3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求 3)计算范围: 实时监控:过去24小时内 历史分析:所选当月范围内 4)建议值:建议保持在95%以上 |
请求成功率 | 1)指标说明:用于评估应用性能的行业标准 2)计算逻辑:请求成功率=(成功请求 / 所有请求数) × 100% 3)计算范围: 实时监控:过去24小时内 历史分析:所选当月范围内 4)建议值:建议保持在95%以上 |
并发峰值 | 指标说明: 实时监控:使用请求切片去计算每分钟的并发数,展示过去24小时内并发量最大值 历史分析:使用请求切片去计算每分钟的并发数,展示所选月份的并发量最大值 |
并发用户峰值 | 指标说明: 实时监控:使用请求切片去计算每分钟的并发用户数,展示过去24小时内并发用户数最大值 历史分析:使用请求切片去计算每分钟的并发用户数,展示所选月份的并发用户数最大值 |
4. 趋势分析
4.1 健康状况
界面说明:
展示指定时间范围内的性能指数、请求成功率。
实时监控下,点击异常点,可联动跳转至「链路追踪>调用链路」页面,默认带入查询时间前后一分钟进行查询。
实时监控下,点击异常点,可联动跳转至「监控与告警>流量监控」页面,默认带入查询时间前后一分钟进行查询。
实时监控下,点击异常点,可同时定位所选时间点的各项指标值。
指标说明:
指标 | 具体说明 |
---|---|
性能指数APDEX | 1)指标说明:用于评估应用性能的行业标准 2)计算逻辑: APDEX=(满意请求数+可容忍请求数/2)/总请求数 )*100% 满意请求:耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求 可容忍请求:3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求 3)建议值:建议保持在95%以上 |
请求成功率 | 1)指标说明:用于评估应用性能的行业标准 2)计算逻辑:请求成功率=(成功请求 / 所有请求数) × 100% 3)建议值:建议保持在95%以上 |
4.2 用户使用统计
界面说明:
展示并发峰值和并发用户峰值。
实时监控下,点击异常点,可联动跳转至「链路追踪>调用链路」页面,默认带入查询时间前后一分钟进行查询。
实时监控下,点击异常点,可联动跳转至「监控与告警>流量监控」页面,默认带入查询时间前后一分钟进行查询。
实时监控下,点击异常点,可同时定位所选时间点的各项指标值。
指标说明:
指标 | 具体说明 |
---|---|
并发请求峰值 | 指标说明: 实时监控:使用请求切片去计算每分钟的并发请求数,展示过去24小时内并发请求量最大值 历史分析:使用请求切片去计算每分钟的并发请求数,展示所选月份的并发请求量最大值 |
并发用户峰值 | 指标说明: 实时监控:使用请求切片去计算每分钟的并发用户数,展示过去24小时内并发用户数最大值 历史分析:使用请求切片去计算每分钟的并发用户数,展示所选月份的并发用户数最大值 |
4.3 节点概况表
界面说明:展示指定时间范围内,每个节点的系统健康观测指标。
指标说明:指标计算逻辑可参考上文。
4.4 性能状况
界面说明:
展示指定时间范围内的看板情况。
p90曲线表示有90%的请求耗时都小于该曲线对应值。p95、p99曲线以此类推。
实时监控下,点击服务响应时间、数据响应时间异常点,可联动跳转至「链路追踪>首屏链路」页面,默认带入查询时间前后一分钟进行查询。
实时监控下,点击用户白屏时间、用户首屏时间异常点,可联动跳转至「链路追踪>调用链路」页面,默认带入查询时间前后一分钟进行查询。
实时监控下,点击异常点,可同时定位所选时间点的各项指标值。
指标说明:
指标 | 具体说明 |
---|---|
服务响应时间 | 有效请求的平均耗时。服务器端完成请求响应的时长,用来衡量帆软整体服务的影响情况 |
数据响应时间 | 有效请求的平均耗时。数据引擎/数据库完成请求响应的时长,用来衡量数据计算的性能情况 |
用户白屏时间 | 用户打开一张模板,模板界面完全白屏的时间 |
用户首屏时间 | 用户打开一张模板,模板完全加载完成的时间 |
5. 问题识别
5.1 问题请求列表
界面说明:
展示指定时间范围内所有报错请求和耗时超过10S的慢请求。
根据模板资源,统计每个资源的问题类型、查询次数、影响用户数
实时监控下,支持「查看链路详情」操作,可联动跳转至「链路追踪>调用链路」页面,默认带入sessionID查询,查询开始时间控件带入3天范围。
5.2 占用高内存的资源
界面说明:
展示过去24小时/所选月份内识别到的占用高内存的资源。
根据资源类型,统计每个资源的类型、资源名称、资源创建者、占用内存、访问用户、识别时间。