1. 概述
1.1 版本
FineBI服务器版本 |
---|
6.0 |
1.2 应用场景
如果内存环境配置不合理,非常容易导致FineBI系统宕机,且此类宕机情况很难复现,排查困难。
1.3 功能简介
注:健康巡检功能只支持 linux 和 windows 环境。
FineBI中内置了系统运维插件,直接拥有此功能。
「健康巡检」,可帮助用户检查系统中的各项配置是否合理,以辅助用户优化环境配置,更好地防止宕机情况的发生。
用户手动检查/平台定期检测FineBI系统各项环境配置是否合理
当系统环境配置不合理时,推送消息给用户
为用户提供系统环境配置的合理改进指导
本文将简单介绍健康巡检功能的检查逻辑和检查项。
2. 系统检查项
支持进行的巡检内容,包括系统检查、系统运行状态、端口检查、网络检查、服务联通性检查、业务检查、环境检查、磁盘检查、非容器化部署检查、虚拟机检查。如下表所示:
详情请参见:运维监控指导手册 第三章。
巡检内容 | 检测项 |
---|---|
系统检查 | 仅输出信息,不进行配置推荐,检测项包括: 操作系统信息、glibc/gcc版本、hostname、时区信息、CPU主频、核心数、内存大小、已使用内存、空闲内存、交换分区、检测时间、根目录磁盘、根目录磁盘剩余 |
系统运行状态 |
|
端口检查 |
|
网络检查 | 检查文件服务器、外接数据库、状态服务器和应用之间通信是否正常,是否能够ping通,是否存在丢包情况 |
服务联通性检查 | 检查工程与Redis组件、Sftp组件、FineDB数据库之间是否联通 |
业务检查 |
|
环境检查 |
|
磁盘检查 | 仅输出信息,不进行配置推荐,检测项包括: 磁盘空间、已使用磁盘空间、空闲磁盘空间、顺序读取、顺序写、随机读、小文件创建、小文件删除 |
非容器化部署 | 仅输出信息,不进行配置推荐,检测项包括: 进程用户、服务器主要文件夹权限 |
虚拟机检查 |
|
检查后存在问题的检查项,会在页面中展示,如下图所示:
3. 一键配置
3.1 不支持的环境
对于以下环境,不支持一键配置功能:
1)非 Tomcat 部署环境,不支持一键配置系统检查建议值,例如was部署、weblogic部署等。
2)工程系统中若存在自行设置的 setenv 文件,不支持一键配置系统检查建议值。
3)服务形式启动的 Tomcat 工程,不支持一键配置系统检查建议值。
4)Windows 环境下 exe 启动的 Tomcat 工程,不支持一键配置系统检查建议值。
5)系统物理内存为 16 GB及以下的环境,不支持一键配置系统检查建议值。
3.2 配置方法
若当前工程环境满足一键配置的要求,且存在需要一键配置的检查项,在「健康巡检」页面左上角出现按钮「查看建议配置」。
点击「查看建议配置」,即可勾选需要配置的检查项,点击「应用配置」,即可一键配置异常项的值。配置成功后,跳出提示「应用配置成功,重启服务器后生效」。
报表工程重启后,可以发现刚刚的异常项均已成功配置。
注1:支持一键配置的检查项为:堆内内存、堆外NIO内存、堆外FineIO内存、垃圾回收器类型、老年代与新生代比例、栈空间。
注2:若没有文件读写权限或者无法修改配置文件时,提示「应用配置失败:没有配置文件读写权限」,点击「确定」,则修改失败,返回健康巡检界面。
4. 巡检报告
每一次健康巡检结束后,会生成一个巡检报告。用户可将报告下载到本地,或在线预览。如下图所示:
巡检报告中默认仅展示存在问题的检查项,支持切换查看不同节点的全部检测项。如下图所示:
5. 触发检查
5.1 手动检查
系统重启后,每小时获取一次系统的配置情况。
第一次进行健康巡检时,需要点击「开始巡检」按钮,系统自动进行检查,获取最近一次的系统配置,更新检查结果。
再次进行健康巡检时,点击「重新诊断」按钮,系统自动进行检查,获取最近一次的系统配置,更新检查结果。
5.2 自动检查
在「健康巡检处理」页面,管理员可开启「系统自动检查」并保存。
开启后,系统在每周日上午 11 点进行自动检查,存在不合理配置时可通过短信提醒、平台消息、邮件提醒三种形式通知管理员。
注:
1)短信提醒:需要开启短信平台,详细点击 短信
2)邮件提醒:需要配置邮件服务器,详细点击 邮箱
3)平台消息:需要在负载均衡层面配置websocket端口并且开放,相关文档:Websocket端口被占用/无法使用
6. 运维工具
运维接口密钥,是在「运维平台」中绑定当前工程的接口密钥,详情请参见:运维平台产品简介
7. 注意事项
7.1 快速修复异常
问题描述:
使用健康巡检的「快速修复」功能,修改了tomcat内存后,使用./startup.sh命令启动工程,tomcat 闪退,并且无 tomcat 进程出现。
原因分析:
系统内存不足。
解决方案:
删除%TOMCAT_HOME%/bin下的setenv.sh文件,该文件为快速修复时生成的配置文件。
7.2 This combination of host and port requires TLS
问题描述:
健康巡检全部失败。
触发巡检并打开日志info级别,出现报错:This combination of host and port requires TLS
原因分析:
端口没有配置好https
解决方案:
finedb的 fine_conf_entity 表中,需要新增一个字段ClusterNodeConfig.useHttps,字段值为true
添加方法请参见:填报修改fine_conf_entity