历史版本5 :系统巡检 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本
功能变更
V1.0-
V1.2新增「巡检报告」功能
V1.3

1)「巡检报告」优化,拆分为「异常检测项」和「全部检测项」

2)检测内容优化,增加部分常用检测项

3)提供定期巡检周期配置功能

1.2 功能简介

管理员需要对应用进行定期健康巡检,确保应用所在的环境及应用内配置合理,以保证应用的正常运行。

巡检内容包括端口检查、网络服务检查、存储服务检查、环境配置检查以及业务配置检查。

检查项目原因
系统检查包括:CPU主频、核心数、内存大小、已使用内存、空闲内存、交换分区、检测时间、根目录磁盘、根目录磁盘剩余
系统运行状态包括:工程启动路径、工程下文件夹大小异常情况、xms配置、插件信息、注册信息、web.xml检查、容器版本、工程JAR包信息、服务器时间
端口检查帆软应用正常使用过程中,需要服务器开放一些端口,因此需要对这些端口进行检查是否开放,避免出现系统功能异常
网络检查检测应用各组件通信是否能够ping通,是否存在丢包情况
服务连通性检查检测服务是否连通
业务检查包括:finedb、日志级别、日志清理、自动备份磁盘占用限制、自动备份保留数量限制、定时调度任务清理配置
环境检查包括:overcommit_memory、overcommit_ratio、codecache配置、语言配置-Duser.country、语言配置-Duser.language、zip相关配置-Dsun.zip.disableMemoryMapping、gblic内存泄露相关配置
磁盘检查

1)关注磁盘的性能和使用情况,防止影响业务的正常运行

2)关注磁盘剩余空间,防止出现磁盘空间不足导致系统运行受影响

虚拟机检查系统当前内存、headless模式
非容器化部署检查包括:进程用户、服务器主要文件夹权限
配置检查包括:外接数据库编码、Nginx健康检查、Nginx参数配置、集群参数配置、更新资源无限制时间段配置、二级缓存开启情况、SQL执行时长限制、单模板单元格数限制、导入excel单元格数限制、单数据集行数限制、负载预警开启、脏数据检测

2. 使用前提编辑

2.1 绑定应用

使用「健康诊断」功能前,必须确保运维平台已配置了需要被诊断的「目标应用」。

否则提示「提示:诊断前请先点击上方”健康诊断“左侧按钮设置诊断应用URL」,如下图所示:

2.2 应用可用

使用「健康诊断」功能前,必须确保需要被诊断的「目标应用」状态可用。

否则提示「请求服务器数据失败」,如下图所示:

3. 诊断异常项编辑

「运维平台」的「运维工具」首页默认为「健康诊断」功能,此功能是运维平台巡检的总入口。

管理员登录运维平台,点击「运维工具」,选择需要进行健康诊断的运维应用,点击「开始诊断」按钮,即可开始诊断。如下图所示:

运维平台会对应用的「端口、网络服务、存储服务、配置」四类问题进行诊断。如果存在异常将显示在页面上。

进行修复/更改后,管理员可再次点击「重新诊断」按钮,「运维平台」会重新对目标应用进行诊断,输出最新结果。

注:检查项具体内容请参考:运维监控指导手册 第三章。

4. 修复异常项编辑

4.1 快速修复

部分异常配置支持快速修复。

管理员点击「快速修复」按钮,勾选需要配置的检查项,点击「应用配置」,即可一键配置异常项的值。

配置成功后,跳出提示「应用配置成功,重启服务器后生效」。应用工程重启后,可以发现刚刚的异常项均已成功配置。

注1:若没有文件读写权限或者无法修改配置文件时,提示「应用配置失败:没有配置文件读写权限」,点击「确定」,则修改失败。

注2:若没有可快速修复的配置项,则该按钮灰化,不可点击。

4.2 手动修复

检查项具体设置建议请参考:运维监控指导手册 第三章。

5. 巡检报告编辑

对于健康诊断的结果,生成巡检报告,支持下载/预览/批量下载。

巡检报告中仅展示存在问题的检查项,如下图所示: