反馈已提交

网络繁忙

系统健康观测

  • 文档创建者:Carly
  • 历史版本:23
  • 最近更新:Carly 于 2024-04-15
  • 1. 概述

    1.1 版本

    运维平台版本
    功能变更
    V1.5.5-
    V1.5.6

    系统健康观测界面展示优化

    1)请求并发量和在线用户数,优化为并发峰值和并发用户峰值

    2)各指标图支持互相「定位当前时间」

    3)各指标图支持拖动调整时间区间

    4)各指标图支持放大查看

    V1.5.8新增「占用高内存的资源」清单
    V1.5.9

    1)新增「健康巡检」强提醒按钮

    2)各指标图和明细表标题联动显示时间点,快速定位时间

    V1.10.0

    1)新增模块切换、请求类型筛选等全局控件

    2)「节点情况明细表」更名为「节点概况表」

    V1.12.0为确保精确定位链路信息,系统健康观测联动跳转链路详情时,部分跳转项从「首屏链路」调整为「调用链路
    V2.3.0

    该版本优化了性能指数APDEX计算逻辑,提高性能标准,对性能波动更敏锐

    本次逻辑优化,旨在为用户提供更好的性能体验,支持更好的体现用户的真实体验,更加凸显「鉴权慢」等场景对用户造成的不佳体验

    1.2 功能简介

    运维平台提供系统健康观测仪表盘,对系统的健康状态和运行状态进行智能化监测。

    系统健康观测仪表盘,主要站在用户体验的角度,观测系统的稳定情况、性能情况、运维人效等。并通过观测请求,输出问题请求所在的主体(仪表板、模板等)。

    2. 功能简介

    2.1 使用前提

    健康观测」依赖链路追踪功能,请先确保开启链路追踪、配置全局设置等。

    详情请参见:链路追踪使用前提

    2.2 功能入口

    1)管理员登录FineOps运维平台,选择运维项目,点击「项目监控>健康观测」。

    2)用户可点击筛选不同请求类型。

    请求类型影响指标数据、健康状况、用户使用统计、 节点概况表。

    请求类型
    说明
    全部包括下文所有请求类型
    配置类

    打开目录、搜索、计算权限等平台操作行为的请

    非数据类、资源类的其他请求,均为配置类

    数据类

    访问报表、数据表,查看数据结果的相关请求

    资源类前端JS、CSS、字体、图标等静态资源请求

    3)用户可点击切换指定监控时间范围。

    时间范围
    说明
    实时监控

    1)当观测内容为「关键指标」和「占用高内存的资源」时:

    时间范围为过去24小时内

    2)当观测内容为「趋势分析」和「问题请求列表」时:

    时间范围可选过去1h、6h、12h、24h、72h

    历史分析

    时间范围可选过去任一月份

    3. 关键指标

    界面说明:

    展示五个重点指标。指标值如有异常,会显示为红色。

    指标说明:

    指标
    具体说明
    综合健康指数

    1)指标说明:用于表示系统健康程度的综合指标

    2)计算逻辑:

    综合健康得分=(满意请求数+可容忍请求数/2)/总请求数)*100%

    满意请求:耗时<3s且成功的请求

    可容忍请求:3s<=耗时<12s、且成功的请求

    3)计算范围:

    实时监控:过去24小时内

    历史分析:所选当月范围内

    4)建议值:建议保持在95%以上

    性能指数APDEX

    1)指标说明:用于评估应用性能的行业标准

    性能指数APDEX,作为运维平台的重点观测指标,在一年多的指标观测和用户调研打磨下,帆软对产品性能提出了更高的要求

    V2.3.0 版本优化了性能指数APDEX计算逻辑,提高性能标准,对性能波动更敏锐

    本次逻辑优化,旨在为用户提供更好的性能体验,支持更好的体现用户的真实体验,更加凸显「鉴权慢」等场景对用户造成的不佳体验

    帆软将不遗余力的优化改进产品,为广大用户提供更好的性能体验

    2)计算逻辑:

    APDEX=(满意请求数+可容忍请求数/2)/总请求数 )*100%

    满意请求:耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求

    可容忍请求:3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求

    3)计算范围:

    实时监控:过去24小时内

    历史分析:所选当月范围内

    4)建议值:建议保持在95%以上

    请求成功率

    1)指标说明:用于评估应用性能的行业标准

    2)计算逻辑:请求成功率=(成功请求 / 所有请求数) × 100%

    3)计算范围:

    实时监控:过去24小时内

    历史分析:所选当月范围内

    4)建议值:建议保持在95%以上

    并发峰值

    指标说明:

    实时监控:使用请求切片去计算每分钟的并发数,展示过去24小时内并发量最大值

    历史分析:使用请求切片去计算每分钟的并发数,展示所选月份的并发量最大值

    并发用户峰值

    指标说明:

    实时监控:使用请求切片去计算每分钟的并发用户数展示过去24小时内并发用户数最大值

    历史分析:使用请求切片去计算每分钟的并发用户数,展示所选月份的并发用户数最大值

    4. 趋势分析

    4.1 健康状况

    界面说明:

    展示指定时间范围内的性能指数、请求成功率。

    • 实时监控下,点击异常点,可联动跳转至「链路追踪>调用链路」页面,默认带入查询时间前后一分钟进行查询。

    • 实时监控下,点击异常点,可联动跳转至「监控与告警>流量监控」页面,默认带入查询时间前后一分钟进行查询。

    • 实时监控下,点击异常点,可同时定位所选时间点的各项指标值。

    指标说明:

    指标
    具体说明
    性能指数APDEX

    1)指标说明:用于评估应用性能的行业标准

    2)计算逻辑:

    APDEX=(满意请求数+可容忍请求数/2)/总请求数 )*100%

    满意请求:耗时<3s 的数据类请求、耗时<0.5s 的资源类请求、耗时<0.5s 的配置类请求

    可容忍请求:3s<=耗时<12s 的数据类请求、0.5s<=耗时<2s 的资源类请求、0.5s<=耗时<2s 的配置类请求

    3)建议值:建议保持在95%以上

    请求成功率

    1)指标说明:用于评估应用性能的行业标准

    2)计算逻辑:请求成功率=(成功请求 / 所有请求数) × 100%

    3)建议值:建议保持在95%以上

    4.2 用户使用统计

    界面说明:

    展示并发峰值和并发用户峰值。

    • 实时监控下,点击异常点,可联动跳转至「链路追踪>调用链路」页面,默认带入查询时间前后一分钟进行查询。

    • 实时监控下,点击异常点,可联动跳转至「监控与告警>流量监控」页面,默认带入查询时间前后一分钟进行查询。

    • 实时监控下,点击异常点,可同时定位所选时间点的各项指标值。

    指标说明:

    指标
    具体说明
    并发请求峰值

    指标说明:

    实时监控:使用请求切片去计算每分钟的并发请求数,展示过去24小时内并发请求量最大值

    历史分析:使用请求切片去计算每分钟的并发请求数,展示所选月份的并发请求量最大值

    并发用户峰值

    指标说明:

    实时监控:使用请求切片去计算每分钟的并发用户数,展示过去24小时内并发用户数最大值

    历史分析:使用请求切片去计算每分钟的并发用户数,展示所选月份的并发用户数最大值

    4.3 节点概况表

    界面说明:展示指定时间范围内,每个节点的系统健康观测指标。

    指标说明:指标计算逻辑可参考上文。

    4.4 性能状况

    界面说明:

    展示指定时间范围内的看板情况。

    • p90曲线表示有90%的请求耗时都小于该曲线对应值。p95、p99曲线以此类推。

    • 实时监控下,点击服务响应时间、数据响应时间异常点,可联动跳转至「链路追踪>首屏链路」页面,默认带入查询时间前后一分钟进行查询。

    • 实时监控下,点击用户白屏时间、用户首屏时间异常点,可联动跳转至「链路追踪>调用链路」页面,默认带入查询时间前后一分钟进行查询。

    • 实时监控下,点击异常点,可同时定位所选时间点的各项指标值。

    指标说明:

    指标
    具体说明
    服务响应时间有效请求的平均耗时。服务器端完成请求响应的时长,用来衡量帆软整体服务的影响情况
    数据响应时间有效请求的平均耗时。数据引擎/数据库完成请求响应的时长,用来衡量数据计算的性能情况
    用户白屏时间用户打开一张模板,模板界面完全白屏的时间
    用户首屏时间用户打开一张模板,模板完全加载完成的时间

    5. 问题识别

    5.1 问题请求列表

    界面说明:

    • 展示指定时间范围内所有报错请求和耗时超过10S的慢请求。

    • 根据模板资源,统计每个资源的问题类型、查询次数、影响用户数

    • 实时监控下,支持「查看链路详情」操作,可联动跳转至「链路追踪>调用链路」页面,默认带入sessionID查询,查询开始时间控件带入3天范围。

    5.2 占用高内存的资源

    界面说明:

    • 展示过去24小时/所选月份内识别到的占用高内存的资源。

    • 根据资源类型,统计每个资源的类型、资源名称、资源创建者、占用内存、访问用户、识别时间。

    6. 下一步操作

    下一步操作说明
    健康巡检

    管理员应当对应用进行定期健康巡检,确保应用所在的环境及应用内配置合理,以保证应用的正常运行。

    当出现「已有一个月未巡检,请立即巡检以发现并修复异常」提示时,建议即刻进行巡检操作,并配置定期自动巡检。

    链路追踪运维平台提供「链路追踪」功能,帮助用户对查询请求进行采集和分析。

    对于系统健康观测各个图表异常处,可点击图表联动跳转查看具体链路,定位系统性能异常点。

    对于实时监控下的问题请求列表,可点击跳转查看具体链路,定位系统性能异常点。


    附件列表


    主题: 项目管理
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持