1. 概述
1.1 版本
FineBI服务器版本 | 系统运维插件版本 | 功能变更 |
---|---|---|
5.1.14 | V1.0 | - |
5.1.21 | V1.0 | 新增支持一键配置检测项的值 |
5.1.25 | V1.3.1 | 新增部分系统检查内容 支持生成并下载巡检报告 |
1.2 应用场景
如果内存环境配置不合理,非常容易导致FineBI系统宕机,且此类宕机情况很难复现,排查困难。
1.3 功能简介
FineBI中内置了系统运维插件,直接拥有此功能。
「系统检查」,可帮助用户检查系统中的各项配置是否合理,以辅助用户优化环境配置,更好地防止宕机情况的发生。
用户手动检查/平台定期检测FineBI系统各项环境配置是否合理
当系统环境配置不合理时,推送消息给用户
为用户提供系统环境配置的合理改进指导
本文将简单介绍系统检查功能的检查逻辑和检查项。
2. 系统检查项
V1.3.1之前版本的插件,仅支持环境配置检查。
V1.3.1及之后版本的插件,支持进行的巡检内容,包括端口检查、网络服务检查、存储服务检查、环境配置检查以及业务配置检查。如下表所示:
详情请参见:运维监控指导手册 第三章。
巡检内容 | 检查项 | 说明 |
---|---|---|
端口检查 | http 监听端口 | 帆软的 Web 端对外开放的端口,不开放将无法正常访问页面 |
WebSocket 端口 | WebSocket 主要用于刷新 token、用户被踢出、平台消息、内存和 CPU 显示、平台日志处当前系统在线人数、数据连接编辑状态的确定。 WebSocket 不开放影响 socket 通信,访问可能异常断开。 | |
网络服务检查 | - | 检查一下文件服务器、外接数据库、状态服务器和应用之间通信是否正常,是否能够ping通,是否存在丢包情况。 |
存储服务检查 | 磁盘性能检查 | 磁盘读取性能及磁盘写入性能会对帆软的业务产生影响,因此需要关注磁盘的性能和使用情况。 |
磁盘剩余空间检查 | 随着帆软应用的运行,可能会产生越来越多的日志、备份、缓存文件等,对于磁盘空间的占用也会渐渐变大,如果不关注磁盘剩余空间可能出现磁盘空间不足导致系统运行受影响,严重时甚至会导致宕机。 | |
配置检查 | 内存配置检查 | 包括: 物理内存、堆内内存、堆外内存、fineIO读内存、fineIO写内存 |
其他环境配置检查 | 包括: 垃圾回收器类型、老年代与新生代比例、栈空间、单机多进程、finedb是否公用、headless 模式、debug模式、dump导出、vm.max_map_count、最大文件打开数、recompilationCutoff | |
业务配置检查 | 包括: finedb是否迁移、日志清理周期、日志级别、自动备份配置、定时调度任务清理配置 spark_memory_fracrtion、resultSetRowLimit、spider_update_fast_compute_limit_cell、spark_driver_maxResultSize、spider_fast_compute_limit_row、spider_fast_compute_limit_unit、spider_fast_compute_limit_memory参数值 |
检查后存在问题的检查项,会在页面中展示,如下图所示:
3. 一键配置
5.1.21 及之后版本,支持一键配置系统检查建议值。
3.1 不支持的环境
对于以下环境,不支持一键配置功能:
1)非 Tomcat 部署环境,不支持一键配置 系统检查建议值,例如was部署、weblogic部署等。
2)FineReport 和FineBI 集成的环境,不支持一键配置系统检查建议值。
3)工程系统中若存在自行设置的 setenv 文件,不支持一键配置系统检查建议值。
4)服务形式启动的 Tomcat 工程,不支持一键配置系统检查建议值。
5)Windows环境下 exe 启动的 Tomcat 工程,不支持一键配置系统检查建议值。
6)设计器环境下的 FineReport 工程,不支持一键配置系统检查建议值。
7)系统物理内存为 16 GB及以下的环境,不支持一键配置系统检查建议值。
8)集群工程环境,不支持一键配置系统检查建议值。
3.2 配置方法
若当前工程环境满足一键配置的要求,且存在需要一键配置的检查项,在「系统检查」页面左上角出现按钮「查看建议配置」。
点击「查看建议配置」,即可勾选需要配置的检查项,点击「应用配置」,即可一键配置异常项的值。配置成功后,跳出提示「应用配置成功,重启服务器后生效」。
报表工程重启后,可以发现刚刚的异常项均已成功配置。
注1:支持一键配置的检查项为:堆内内存、堆外NIO内存、堆外FineIO内存、垃圾回收器类型、老年代与新生代比例、栈空间。
注2:若没有文件读写权限或者无法修改配置文件时,提示「应用配置失败:没有配置文件读写权限」,点击「确定」,则修改失败,返回系统检查界面。
4. 巡检报告
每一次系统检查结束后,会生成一个巡检报告。用户可将报告下载到本地,或在线预览。如下图所示:
报告内容包括上述所有检查项。报告示例如下图所示:
5. 触发检查
5.1 手动检查
系统重启后,每小时获取一次系统的配置情况。
第一次进行系统检查时,需要点击「开始诊断」按钮,系统自动进行检查,获取最近一次的系统配置,更新检查结果。
再次进行进行系统检查时,点击「重新诊断」按钮,系统自动进行检查,获取最近一次的系统配置,更新检查结果。
5.2 自动检查
在「系统检查」页面,管理员可开启「系统自动检查」并保存。
开启后,系统在每日凌晨 1 点进行自动检查,存在不合理配置时可通过短信提醒、平台消息、邮件提醒三种形式通知管理员。
注:
1)短信提醒:需要开启短信平台,详细点击 短信
2)邮件提醒:需要配置邮件服务器,详细点击 邮箱
3)平台消息:需要在负载均衡层面配置websocket端口并且开放,相关文档:Websocket端口被占用/无法使用
6. 运维工具
运维接口密钥,是在「运维平台」中绑定当前工程的接口密钥,详情请参见:运维平台产品简介
7. 注意事项
问题描述:
使用健康巡检的「快速修复」功能,修改了tomcat内存后,使用./startup.sh命令启动工程,tomcat 闪退,并且无 tomcat 进程出现。
原因分析:
系统内存不足。
解决方案:
删除%TOMCAT_HOME%/bin下的setenv.sh文件,该文件为快速修复时生成的配置文件。