1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V2.12.0 | - |
1.2 应用场景
大部分企业对于业务系统的稳定性都有明确的目标要求。运维团队通过统计系统可用性指标,可以帮助企业衡量业务系统提供的质量。
然而,系统可用性直接影响用户体验。如果系统在特定时间段内的可用性低于预期或频繁出现不可用时间,不仅会影响终端用户的满意度,还可能导致业务中断和客户流失。
那么,运维团队如何有效地监控系统可用性,从而确保业务系统的稳定性和用户满意度?
1.3 功能简介
运维平台提供了一项关键功能「可用性指标」,帮助运维团队解决这一问题。
1)定义和计算系统可用性:支持对系统可用性进行定义和计算,提供不同时段的可用率,帮助团队全面了解系统的运行状态。
2)设置停机计划:支持设置停机计划,结合计划内停机和意外宕机的时间统计,可以更全面地评估系统的稳定性。
3)展示详细停机记录:支持展示详细停机记录,帮助运维团队发现潜在问题和薄弱环节,从而及时采取措施进行调整和维护。
通过这些功能,运维团队可以更好地监控系统或设备的运行状态,及时识别和解决问题,最终提高系统的可用性和用户满意度。
2. 可用性指标
2.1 使用前提
系统可用性是基于运维平台对运维项目的监控数据进行判断的。
因此,为了准确获取系统可用性指标,必须确保运维平台对运维项目的监控正常可用。
详情请参见:监控仪表板使用前提
2.2 定义可用性指标
定义说明:
系统可用性指标 = ∑系统可用时间片 / (∑系统可用时间片 + ∑计划外系统不可用时间片)
注:服务器停机时段,不计入统计范畴。
系统可用时间片:运维平台的监控程序存活,且可以采集到运维项目的监控指标的时间段
计划外系统不可用时间片:支持两种定义
所有非计划停机 | 不可用时间段 - 计划内停机且不可用时间段 例如: 停机计划为3:00~4:00,实际1:00~2:00不可用、2:30~3:30不可用 那么所有非计划停机时间段为:1:00~2:00和2:30~3:00 |
不可用时间段:以下情况会被识别为不可用时间段
| |
计划内停机且不可用时间段: 计划内停机时间段与不可用时间段的交集 | |
仅系统宕机 | 识别为系统宕机的不可用时间段,以下情况会被识别为对应节点宕机
|
设置方法:
1)管理员登录运维平台,选择运维项目,点击「可用性统计>可用性指标」
2)点击「设置」按钮,支持自定义「计划外系统不可用时间片」的取数逻辑,默认选择「所有非计划停机」
3)点击「确定」生效。
2.3 查看可用性指标
1)管理员登录运维平台,选择运维项目,点击「可用性统计>可用性指标」。
2)如为多节点运维项目,右上角支持切换查看不同应用节点的可用性指标,默认展示整个项目的整体指标。
3)支持查看四种时段的可用性指标:昨日、前7日、前30日、近一年。
4)点击不同时段的可用性指标,可联动下方的可用性柱形图,查看不同时段的可用性详情。
3. 停机记录
3.1 使用前提
如需查看运维项目的停机记录,请确保项目可用。
否则提示「项目状态异常,请恢复项目后使用或查看其他项目」
3.2 查看停机记录
停机记录列表中,展示所选时段内的停机明细。
1)管理员登录运维平台,选择运维项目,点击「可用性统计>可用性指标」
2)在「停机记录」模块,右上角支持选择查询时段,默认查询前一周的停机记录。
3)如为多节点运维项目,支持切换查看不同应用节点的停机记录,默认展示整个项目的停机记录。
4)以明细表形式,展示所选时段内的所有停机情况
内容 | 说明 |
---|---|
停机时间 | 不可用时间段的开始时间 |
恢复时间 | 不可用时间段的结束时间 |
持续时长 | 不可用时间段的结束时间-开始时间 |
停机类型 | 包括三种: 计划停机:即在「停机计划」中创建了对应计划的停机,鼠标悬浮可查看具体停机计划内容 系统宕机:即运维平台识别到了项目宕机,常见的宕机原因和推荐处理方案可参考下表 非计划停机:即运维平台对该项目的监控采集异常,但未识别到宕机,则为非计划停机。鼠标悬浮可「新建停机计划」 |
是否自动重启 | 是否触发了「宕机处理策略」中的宕机自动重启机制 如为否,点击可查看具体原因 |
常见的宕机原因和推荐处理方案如下表所示:
宕机原因 | 推荐处理方案 |
---|---|
内存溢出,可查看具体引发该问题的模板,包括: 被中止的模板 模板计算占用内存过高 模板计算时间过长 sql执行时间过长 模板数据集数据行数大于建议限制行数 模板单元格数大于建议限制单元格数 | 1)对模板进行性能排查,优化模板内容 模板性能请参见:模板性能 2)开启模板限制,配置合理的限制范围 模板限制请参见:模板限制 3)如果当前系统堆内内存配置小于推荐配置时,额外建议使用系统巡检功能对帆软应用进行诊断,并参照推荐值修改堆内内存配置 系统巡检请参见:系统巡检 |
所用JDK版本存在BUG | 建议更换为1.8.0_181及以上版本的JDK8 |
系统存在不合理的内存配置 | 使用系统巡检功能对帆软应用进行诊断,并参照推荐值修改内存配置 系统巡检请参见:系统巡检 |
磁盘空间不足 | 检查服务器磁盘空间,并使用资源清理功能清理不必要文件 资源清理清参见:资源清理 |
内存映射文件数量设置过低 | 使用系统巡检功能对帆软应用进行检测,并参照推荐值修改vm.max_map_count内存映射文件数量配置 系统巡检请参见:系统巡检 |
当前所用版本存在宕机BUG | 建议更新升级帆软应用至最新的小版本 运维平台部署的项目升级请参见:升级运维项目 BI更新升级请参见:FineBI版本升级 FR更新升级请参见:FineReport版本升级 FDL更新升级请参见:FineDataLink版本升级 |
未知原因导致应用崩溃 | 建议上传云端运维日志或联系技术支持进行反馈 |
SSH退出导致应用退出 | 通过 SSH 启动应用时,若直接关闭 SSH 会导致应用一同终止 建议使用其他命令行远程工具(如 SecureCRT),或配置应用服务器为开机自启动 详情请参见:Windows下Tomcat开机自启动 |
数据源取数耗时过长导致线程阻塞 | 建议使用抽数缓存、SQL优化、数据预处理等方式提升取数性能 性能优化请参见:性能优化指导手册 |
日志输出导致线程阻塞 | 建议调整日志输出级别以减少日志量,或检查磁盘是否存在空间不足的问题 日志级别请参见:日志简介 |
系统内存释放时间过长 | 1)如果当前系统堆内内存配置不合理,建议使用系统巡检功能对帆软应用进行诊断,并参照推荐值修改堆内内存配置 系统巡检请参见:系统巡检 2)建议更换使用更高性能的CPU |