历史版本14 :可用性指标 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本功能变更
V2.12.0
-

1.2 应用场景

大部分企业对于业务系统的稳定性都有明确的目标要求。运维团队通过统计系统可用性指标,可以帮助企业衡量业务系统提供的质量。

然而,系统可用性直接影响用户体验。如果系统在特定时间段内的可用性低于预期或频繁出现不可用时间,不仅会影响终端用户的满意度,还可能导致业务中断和客户流失。

那么,运维团队如何有效地监控系统可用性,从而确保业务系统的稳定性和用户满意度?

1.3 功能简介

运维平台提供了一项关键功能「可用性指标」,帮助运维团队解决这一问题。

1)定义和计算系统可用性:支持对系统可用性进行定义和计算,提供不同时段的可用率,帮助团队全面了解系统的运行状态。

2)设置停机计划:支持设置停机计划,结合计划内停机和意外宕机的时间统计,可以更全面地评估系统的稳定性。

3)展示详细停机记录:支持展示详细停机记录,帮助运维团队发现潜在问题和薄弱环节,从而及时采取措施进行调整和维护。

通过这些功能,运维团队可以更好地监控系统或设备的运行状态,及时识别和解决问题,最终提高系统的可用性和用户满意度。

2. 可用性指标编辑

2.1 使用前提

系统可用性是基于运维平台对运维项目的监控数据进行判断的。

因此,为了准确获取系统可用性指标,必须确保运维平台对运维项目的监控正常可用。

详情请参见:监控仪表板使用前提

2.2 定义可用性指标

定义说明:

系统可用性指标 = ∑系统可用时间片 / (∑系统可用时间片 + ∑计划外系统不可用时间片)

  • 系统可用时间片:运维平台的监控程序存活,且可以采集到运维项目的监控指标的时间段

  • 计划外系统不可用时间片:支持两种定义



所有非计划停机

不可用时间段 - 计划内停机且不可用时间段

例如:

停机计划为3:00~4:00,实际1:00~2:00不可用、2:30~3:30不可用

那么所有非计划停机时间段为:1:00~2:00和2:30~3:00

不可用时间段:以下情况会被识别为不可用时间段

  • 运维平台的监控程序存活,且无法采集到运维项目的监控指标持续超过3min的时间段(不可用开始时间~不可用结束时间)

  • fr、fdl、bi-web、bi-worker、bi-master组件,连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100)

  • fr、fdl、bi-web、bi-worker、bi-master组件进程消失时

计划内停机且不可用时间段:

计划内停机时间段与不可用时间段的交集

仅系统宕机

识别为系统宕机的不可用时间段,以下情况会被识别为对应节点宕机

  • fr、fdl、bi-web、bi-worker、bi-master组件,连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100)

  • fr、fdl、bi-web、bi-worker、bi-master组件进程消失时

设置方法:

1)管理员登录运维平台,选择运维项目,点击「可用性统计>可用性指标」

2)点击「设置」按钮,支持自定义「计划外系统不可用时间片」的取数逻辑,默认选择「所有非计划停机」

3)点击「确定」生效。

2.3 查看可用性指标

1)管理员登录运维平台,选择运维项目,点击「可用性统计>可用性指标」。

2)如为多节点运维项目,右上角支持切换查看不同应用节点的可用性指标,默认展示整个项目的整体指标。

3)支持查看四种时段的可用性指标:昨日、前7日、前30日、近一年。

4)点击不同时段的可用性指标,可联动下方的可用性柱形图,查看不同时段的可用性详情。

3. 停机记录编辑

3.1 使用前提

如需查看运维项目的停机记录,请确保项目可用。

否则提示「项目状态异常,请恢复项目后使用或查看其他项目

3.2 查看停机记录

停机记录列表中,展示所选时段内的停机明细。

1)管理员登录运维平台,选择运维项目,点击「可用性统计>可用性指标」

2)在「停机记录」模块,右上角支持选择查询时段,默认查询前一周的停机记录。

3)如为多节点运维项目,支持切换查看不同应用节点的停机记录,默认展示整个项目的停机记录。

4)以明细表形式,展示所选时段内的所有停机情况

内容
说明
停机时间不可用时间段的开始时间
恢复时间不可用时间段的结束时间
持续时长不可用时间段的结束时间-开始时间
停机类型

包括三种

计划停机:即在「停机计划」中创建了对应计划的停机,鼠标悬浮可查看具体停机计划内容

系统宕机:即运维平台识别到了项目宕机,常见的宕机原因和推荐处理方案可参考下表

非计划停机:即运维平台对该项目的监控采集异常,但未识别到宕机,则为非计划停机。鼠标悬浮可「新建停机计划

是否自动重启

是否触发了「宕机处理策略」中的宕机自动重启机

如为否,点击可查看具体原因

常见的宕机原因和推荐处理方案如下表所示:

宕机原因
推荐处理方案

内存溢出,可查看具体引发该问题的模板,包括:

被中止的模板

模板计算占用内存过高

模板计算时间过长

sql执行时间过长

模板数据集数据行数大于建议限制行数

模板单元格数大于建议限制单元格数

1)对模板进行性能排查,优化模板内容

模板性能请参见:模板性能

2)开启模板限制,配置合理的限制范围

模板限制请参见:模板限制

3)如果当前系统堆内内存配置小于推荐配置时,额外建议使用系统巡检功能对帆软应用进行诊断,并参照推荐值修改堆内内存配置

系统巡检请参见:系统巡检

所用JDK版本存在BUG建议更换为1.8.0_181及以上版本的JDK8
系统存在不合理的内存配置

使用系统巡检功能对帆软应用进行诊断,并参照推荐值修改内存配置

系统巡检请参见:系统巡检

磁盘空间不足

检查服务器磁盘空间,并使用资源清理功能清理不必要文件

资源清理清参见:资源清理

内存映射文件数量设置过低

使用系统巡检功能对帆软应用进行检测,并参照推荐值修改vm.max_map_count内存映射文件数量配置

系统巡检请参见:系统巡检

当前所用版本存在宕机BUG

建议更新升级帆软应用至最新的小版本

运维平台部署的项目升级请参见:升级运维项目

BI更新升级请参见:FineBI版本升级

FR更新升级请参见:FineReport版本升级

FDL更新升级请参见:FineDataLink版本升级

未知原因导致应用崩溃建议上传云端运维日志或联系技术支持进行反馈
SSH退出导致应用退出

通过 SSH 启动应用时,若直接关闭 SSH 会导致应用一同终止

建议使用其他命令行远程工具(如 SecureCRT),或配置应用服务器为开机自启动

详情请参见:Windows下Tomcat开机自启动

数据源取数耗时过长导致线程阻塞

建议使用抽数缓存、SQL优化、数据预处理等方式提升取数性能

性能优化请参见:性能优化指导手册

日志输出导致线程阻塞

建议调整日志输出级别以减少日志量,或检查磁盘是否存在空间不足的问题

日志级别请参见:日志简介

系统内存释放时间过长

1)如果当前系统堆内内存配置不合理,建议使用系统巡检功能对帆软应用进行诊断,并参照推荐值修改堆内内存配置

系统巡检请参见:系统巡检

2)建议更换使用更高性能的CPU