系统健康观测- FineOps帮助文档

文档创建者：Carly

历史版本：24

最近更新：Carly 于 2025-04-07

1. 概述

1.1 版本

运维平台版本	功能变更
V1.5.5	-
V1.5.6	系统健康观测界面展示优化 1）请求并发量和在线用户数，优化为并发峰值和并发用户峰值 2）各指标图支持互相「定位当前时间」 3）各指标图支持拖动调整时间区间 4）各指标图支持放大查看
V1.5.8	新增「占用高内存的资源」清单
V1.5.9	1）新增「健康巡检」强提醒按钮 2）各指标图和明细表标题联动显示时间点，快速定位时间
V1.10.0	1）新增模块切换、请求类型筛选等全局控件 2）「节点情况明细表」更名为「节点概况表」
V1.12.0	为确保精确定位链路信息，系统健康观测联动跳转链路详情时，部分跳转项从「首屏链路」调整为「调用链路」
V2.3.0	该版本优化了性能指数APDEX计算逻辑，提高性能标准，对性能波动更敏锐本次逻辑优化，旨在为用户提供更好的性能体验，支持更好的体现用户的真实体验，更加凸显「鉴权慢」等场景对用户造成的不佳体验
V2.19.0	优化性能指数APDEX计算逻辑导出请求和 FDL 后台任务请求，不再影响系统健康观测的 APDEX 评分

1.2 功能简介

运维平台提供系统健康观测仪表盘，对系统的健康状态和运行状态进行智能化监测。

系统健康观测仪表盘，主要站在用户体验的角度，观测系统的稳定情况、性能情况、运维人效等。并通过观测请求，输出问题请求所在的主体（仪表板、模板等）。

2. 功能简介

2.1 使用前提

「健康观测」依赖链路追踪功能，请先确保开启链路追踪、配置全局设置等。

详情请参见：链路追踪使用前提

2.2 功能入口

1）管理员登录FineOps运维平台，选择运维项目，点击「项目监控>健康观测」。

2）用户可点击筛选不同请求类型。

请求类型影响指标数据、健康状况、用户使用统计、节点概况表。

请求类型	说明
全部	包括下文所有请求类型
配置类	打开目录、搜索、计算权限等平台操作行为的请求非数据类、资源类的其他请求，均为配置类
数据类	访问报表、数据表，查看数据结果的相关请求
资源类	前端JS、CSS、字体、图标等静态资源请求

3）用户可点击切换指定监控时间范围。

时间范围	说明
实时监控	1）当观测内容为「关键指标」和「占用高内存的资源」时：时间范围为过去24小时内 2）当观测内容为「趋势分析」和「问题请求列表」时：时间范围可选过去1h、6h、12h、24h、72h
历史分析	时间范围可选过去任一月份

时间范围

说明

实时监控

1）当观测内容为「关键指标」和「占用高内存的资源」时：

时间范围为过去24小时内

2）当观测内容为「趋势分析」和「问题请求列表」时：

时间范围可选过去1h、6h、12h、24h、72h

历史分析

时间范围可选过去任一月份

3. 关键指标

界面说明：

展示五个重点指标。指标值如有异常，会显示为红色。

指标说明：

指标	具体说明
综合健康指数	1）指标说明：用于表示系统健康程度的综合指标 2）计算逻辑：综合健康得分=(满意请求数+可容忍请求数/2)/总请求数)100% 满意请求：耗时<3s且成功的请求可容忍请求：3s<=耗时<12s、且成功的请求 3）计算范围：* 实时监控：过去24小时内历史分析：所选当月范围内 4）建议值：建议保持在95%以上
性能指数APDEX	1）指标说明：用于评估应用性能的行业标准性能指数APDEX，作为运维平台的重点观测指标，在一年多的指标观测和用户调研打磨下，帆软对产品性能提出了更高的要求 V2.3.0 版本优化了性能指数APDEX计算逻辑，提高性能标准，对性能波动更敏锐本次逻辑优化，旨在为用户提供更好的性能体验，支持更好的体现用户的真实体验，更加凸显「鉴权慢」等场景对用户造成的不佳体验帆软将不遗余力的优化改进产品，为广大用户提供更好的性能体验 2）计算逻辑： APDEX=(满意请求数+可容忍请求数/2)/总请求数 )100% 满意请求：耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求可容忍请求：3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求其中导出请求和 FDL 后台任务请求，不影响系统健康观测的 APDEX 评分 3）计算范围：* 实时监控：过去24小时内历史分析：所选当月范围内 4）建议值：建议保持在95%以上
请求成功率	1）指标说明：用于评估应用性能的行业标准 2）计算逻辑：请求成功率=(成功请求 / 所有请求数) × 100% 3）计算范围：实时监控：过去24小时内历史分析：所选当月范围内 4）建议值：建议保持在95%以上
并发峰值	指标说明：实时监控：使用请求切片去计算每分钟的并发数，展示过去24小时内并发量最大值历史分析：使用请求切片去计算每分钟的并发数，展示所选月份的并发量最大值
并发用户峰值	指标说明：实时监控：使用请求切片去计算每分钟的并发用户数，展示过去24小时内并发用户数最大值历史分析：使用请求切片去计算每分钟的并发用户数，展示所选月份的并发用户数最大值

4. 趋势分析

4.1 健康状况

界面说明：

展示指定时间范围内的性能指数、请求成功率。

实时监控下，点击异常点，可联动跳转至「链路追踪>调用链路」页面，默认带入查询时间前后一分钟进行查询。
实时监控下，点击异常点，可联动跳转至「监控与告警>流量监控」页面，默认带入查询时间前后一分钟进行查询。
实时监控下，点击异常点，可同时定位所选时间点的各项指标值。

指标说明：

指标	具体说明
性能指数APDEX	1）指标说明：用于评估应用性能的行业标准 2）计算逻辑： APDEX=(满意请求数+可容忍请求数/2)/总请求数 )100% 满意请求：耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求可容忍请求：3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求其中导出请求和 FDL 后台任务请求，不影响系统健康观测的 APDEX 评分 3）建议值：*建议保持在95%以上
请求成功率	1）指标说明：用于评估应用性能的行业标准 2）计算逻辑：请求成功率=(成功请求 / 所有请求数) × 100% 3）建议值：建议保持在95%以上

指标

具体说明

性能指数APDEX

1）指标说明：用于评估应用性能的行业标准

2）计算逻辑：

APDEX=(满意请求数+可容忍请求数/2)/总请求数 )*100%

满意请求：耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求

可容忍请求：3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求

其中导出请求和 FDL 后台任务请求，不影响系统健康观测的 APDEX 评分

3）建议值：建议保持在95%以上

请求成功率

1）指标说明：用于评估应用性能的行业标准

2）计算逻辑：请求成功率=(成功请求 / 所有请求数) × 100%

3）建议值：建议保持在95%以上

4.2 用户使用统计

界面说明：

展示并发峰值和并发用户峰值。

实时监控下，点击异常点，可联动跳转至「链路追踪>调用链路」页面，默认带入查询时间前后一分钟进行查询。
实时监控下，点击异常点，可联动跳转至「监控与告警>流量监控」页面，默认带入查询时间前后一分钟进行查询。
实时监控下，点击异常点，可同时定位所选时间点的各项指标值。

指标说明：

指标	具体说明
并发请求峰值	指标说明：实时监控：使用请求切片去计算每分钟的并发请求数，展示过去24小时内并发请求量最大值历史分析：使用请求切片去计算每分钟的并发请求数，展示所选月份的并发请求量最大值
并发用户峰值	指标说明：实时监控：使用请求切片去计算每分钟的并发用户数，展示过去24小时内并发用户数最大值历史分析：使用请求切片去计算每分钟的并发用户数，展示所选月份的并发用户数最大值

指标

具体说明

并发请求峰值

指标说明：

实时监控：使用请求切片去计算每分钟的并发请求数，展示过去24小时内并发请求量最大值

历史分析：使用请求切片去计算每分钟的并发请求数，展示所选月份的并发请求量最大值

并发用户峰值

指标说明：

实时监控：使用请求切片去计算每分钟的并发用户数，展示过去24小时内并发用户数最大值

历史分析：使用请求切片去计算每分钟的并发用户数，展示所选月份的并发用户数最大值

4.3 节点概况表

界面说明：展示指定时间范围内，每个节点的系统健康观测指标。

指标说明：指标计算逻辑可参考上文。

4.4 性能状况

界面说明：

展示指定时间范围内的看板情况。

p90曲线表示有90%的请求耗时都小于该曲线对应值。p95、p99曲线以此类推。
实时监控下，点击服务响应时间、数据响应时间异常点，可联动跳转至「链路追踪>首屏链路」页面，默认带入查询时间前后一分钟进行查询。
实时监控下，点击用户白屏时间、用户首屏时间异常点，可联动跳转至「链路追踪>调用链路」页面，默认带入查询时间前后一分钟进行查询。
实时监控下，点击异常点，可同时定位所选时间点的各项指标值。

指标说明：

指标	具体说明
服务响应时间	有效请求的平均耗时。服务器端完成请求响应的时长，用来衡量帆软整体服务的影响情况
数据响应时间	有效请求的平均耗时。数据引擎/数据库完成请求响应的时长，用来衡量数据计算的性能情况
用户白屏时间	用户打开一张模板，模板界面完全白屏的时间
用户首屏时间	用户打开一张模板，模板完全加载完成的时间

5. 问题识别

5.1 问题请求列表

界面说明：

展示指定时间范围内所有报错请求和耗时超过10S的慢请求。
根据模板资源，统计每个资源的问题类型、查询次数、影响用户数
实时监控下，支持「查看链路详情」操作，可联动跳转至「链路追踪>调用链路」页面，默认带入sessionID查询，查询开始时间控件带入3天范围。

5.2 占用高内存的资源

界面说明：

展示过去24小时/所选月份内识别到的占用高内存的资源。
根据资源类型，统计每个资源的类型、资源名称、资源创建者、占用内存、访问用户、识别时间。

6. 下一步操作

下一步操作	说明
健康巡检	管理员应当对应用进行定期健康巡检，确保应用所在的环境及应用内配置合理，以保证应用的正常运行。当出现「已有一个月未巡检，请立即巡检以发现并修复异常」提示时，建议即刻进行巡检操作，并配置定期自动巡检。
链路追踪	运维平台提供「链路追踪」功能，帮助用户对查询请求进行采集和分析。对于系统健康观测各个图表异常处，可点击图表联动跳转查看具体链路，定位系统性能异常点。对于实时监控下的问题请求列表，可点击跳转查看具体链路，定位系统性能异常点。

下一步操作

说明

健康巡检

管理员应当对应用进行定期健康巡检，确保应用所在的环境及应用内配置合理，以保证应用的正常运行。

当出现「已有一个月未巡检，请立即巡检以发现并修复异常」提示时，建议即刻进行巡检操作，并配置定期自动巡检。

链路追踪

运维平台提供「链路追踪」功能，帮助用户对查询请求进行采集和分析。

对于系统健康观测各个图表异常处，可点击图表联动跳转查看具体链路，定位系统性能异常点。

对于实时监控下的问题请求列表，可点击跳转查看具体链路，定位系统性能异常点。

已经是第一篇

已经是最后一篇

有帮助
没帮助
只是浏览

English 中文（繁體）

中文（简体）

系统健康观测

1. 概述

1.1 版本

1.2 功能简介

2. 功能简介

2.1 使用前提

2.2 功能入口

3. 关键指标

4. 趋势分析

4.1 健康状况

4.2 用户使用统计

4.3 节点概况表

4.4 性能状况

5. 问题识别

5.1 问题请求列表

5.2 占用高内存的资源

6. 下一步操作

附件列表