1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.5.5 | - |
V2.0.0 | 交互优化,功能入口位置调整 |
1.2 功能简介
管理员需要对应用进行定期健康巡检,确保应用所在的环境及应用内配置合理,以保证应用的正常运行。
巡检内容包括端口检查、网络服务检查、存储服务检查、环境配置检查以及业务配置检查等。
检查项目 | 原因 |
---|---|
系统检查 | 包括:CPU主频、核心数、内存大小、已使用内存、空闲内存、交换分区、检测时间、根目录磁盘、根目录磁盘剩余 |
系统运行状态 | 包括:工程启动路径、工程下文件夹大小异常情况、xms配置、插件信息、注册信息、web.xml检查、容器版本、工程JAR包信息、服务器时间 |
端口检查 | 帆软应用正常使用过程中,需要服务器开放一些端口,因此需要对这些端口进行检查是否开放,避免出现系统功能异常 |
网络检查 | 检测应用各组件通信是否能够ping通,是否存在丢包情况 |
服务连通性检查 | 检测服务是否连通 |
业务检查 | 包括:finedb、日志级别、日志清理、自动备份磁盘占用限制、自动备份保留数量限制、定时调度任务清理配置 |
环境检查 | 包括:overcommit_memory、overcommit_ratio、codecache配置、语言配置-Duser.country、语言配置-Duser.language、zip相关配置-Dsun.zip.disableMemoryMapping、gblic内存泄露相关配置 |
磁盘检查 | 1)关注磁盘的性能和使用情况,防止影响业务的正常运行 2)关注磁盘剩余空间,防止出现磁盘空间不足导致系统运行受影响 |
虚拟机检查 | 系统当前内存、headless模式 |
非容器化部署检查 | 包括:进程用户、服务器主要文件夹权限 |
配置检查 | 包括:外接数据库编码、Nginx健康检查、Nginx参数配置、集群参数配置、更新资源无限制时间段配置、二级缓存开启情况、SQL执行时长限制、单模板单元格数限制、导入excel单元格数限制、单数据集行数限制、负载预警开启、脏数据检测 |
2. 使用前提
使用「健康巡检」功能前,必须确保需要被诊断的「目标项目」状态可用,否则提示「项目状态异常,请恢复项目后使用或查看其他项目」。
3. 诊断异常项
健康巡检支持手动检查和自动定期检查。
3.1 手动检查
管理员登录运维平台,选择需要进行健康诊断的项目。
点击「健康巡检>系统巡检」,点击「开始巡检」按钮,即可开始诊断。如下图所示:
运维平台会对应用进行端口检查、网络服务检查、存储服务检查、环境配置检查以及业务配置检查。如果存在异常将显示在页面上。
进行修复/更改后,管理员可再次点击「重新诊断」按钮,「运维平台」会重新对目标应用进行诊断,输出最新结果。
注1:检查项具体内容请参考:健康巡检内容 。
注2:非运维平台部署的单机项目,节点ip有可能显示为127.0.0.1
3.2 自动检查
健康诊断支持自动触发检查。
管理员登录运维平台,选择需要自动进行健康诊断的项目。点击「健康巡检>系统巡检」,点击「巡检设置」按钮。
支持开启「系统自动检查」。默认为每周日上午11点进行检测,用户也可自行配置自动检查的时间。如下图所示:
检测内容和检测结果显示,与手动检查完全一致。
4. 修复异常项
4.1 快速修复
部分异常配置支持快速修复。
管理员点击「快速修复」按钮,勾选需要配置的检查项,点击「应用配置」,即可一键配置异常项的值。
配置成功后,跳出提示「应用配置成功,重启服务器后生效」。应用工程重启后,可以发现刚刚的异常项均已成功配置。
注1:若没有文件读写权限或者无法修改配置文件时,提示「应用配置失败:没有配置文件读写权限」,点击「确定」,则修改失败。
注2:部分内存相关配置项间存在关联关系,无法仅部分修改,因此「异常项」按钮灰化,默认勾选修改。
注3:若没有可快速修复的配置项,则「快速修复」按钮灰化,不可点击。
4.2 手动修复
检查项具体设置建议请参考:健康巡检内容
5. 巡检报告
对于健康诊断的结果,生成巡检报告,支持下载/预览/批量下载。
注:巡检报告不支持手动删除,最多支持保留30份。超出后,按照时间删除最老的巡检报告。
巡检报告中默认仅展示存在问题的检查项,支持切换查看不同节点的全部检测项。如下图所示: