历史版本3 :宕机处理 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

报表服务器版本
JAR包版本功能变动
10.0.15
2021-04-09新增宕机处理功能

1.2 应用场景

报表工程部署在服务器上后,会因为各种原因导致宕机。宕机后若直接重启没有抓取 DUMP 文件 ,很难定位到真实原因,从而无法快速解决问题和做一些防止再发生的预防措施,造成的时间和精力损失无法估计,对服务器运维非常不友好。

JAR 包版本在 2021-04-09 之后的报表工程,新增了「宕机处理」的功能,通过此功能,报表工程可以自动生成 DUMP 文件、同时可重新启动系统。发生宕机后,通过分析生成的 DUMP 文件,可以快速定位宕机原因,及时处理宕机问题和做一些有效的预防措施,为用户增加一道保险。

1.3 功能简介

注1:对于非 Tomcat 容器部署以及设计器自带的工程,不支持「宕机处理」功能。

注2:报表与 BI 集成的用户在使用此功能时,优先调用 BI 工程的「宕机处理」功能,禁用报表工程的「宕机处理」功能,以保证不影响 BI 工程的运行。

「宕机处理」功能实质上是一个宕机自动处理工具,有平台入口和客户端入口。内置在平台的部分主要为工具运行环境监测和一些设置项,客户端主要监控工程运行状况。

1)超管登录数据决策系统,点击「管理系统>智能运维>宕机处理」,就可以看到平台端对应的功能模块。如下图所示:

模块下功能主要分四部分,分别为运行监测、宕机处理、内存堆栈导出记录、服务器重启记录。

2)工程启动后,用户在浏览器端输入 http://IP:端口(宕机自动处理工具默认端口为12100,若修改了端口,此处为修改后的端口)/operation/tool ,便可以进入宕机工具客户端,超管使用账号密码登录后进入用户端界面。用户端对应的功能模块如下图所示:

企业微信截图_16179658384716.png

2. 平台端编辑

数据决策系统中,「管理系统>智能运维>宕机处理」处的配置项,可以归纳为运行监测、宕机处理、处理记录 3 部分。

2.1 运行监测

工程启动后,会先对端口状态、JDK环境、堆外内存、部署情况进行检测。检测有问题则提醒用户做相应修改或者禁用宕机功能,无问题则持续稳定运行。如下图所示:

点击「如何改进配置」可跳转到对应的帮助文档,「运行检测」每项对应的检查内容如下表所示:

序号检查项检查逻辑当前状态修改建议
1端口宕机自动处理工具默认的端口为 12100,若端口被占用或未开启,会导致宕机自动处理工具无法使用,所以首先需要检测 12100 端口是否可用。12100端口可用(端口开启且未被占用)此项配置良好,无需调整
12100端口状态异常(端口未开启或被占用)建议开放 12100 端口或设置其他端口以保证系统正常运行
2JDK用户系统内无 JDK 环境或 JDK 环境异常时,宕机自动处理功能无法正常实现打 DUMP 和打堆栈,所以需要检测用户是否配置了 JDK 环境。已配置(系统已配置好JDK)此项配置良好,无需调整
未配置(系统配置JDK有问题)建议增加系统 JDK 配置以保证系统正常运行
3堆外内存宕机自动处理工具运行时需要一些内存,堆外内存不足说明内存配置极度不合理,不仅无法使用宕机自动处理功能,还有严重的宕机风险和隐患,所以需要检测内存配置。显示堆外内存大小此项配置良好,无需调整(堆外内存大于 300M)
强烈建议物理机总内存减去系统所在容器使用内存不小于 10GB
4部署方式检测是否为 Tomcat 部署、是否为设计器部署,对于非 Tomcat 容器部署以及设计器部署的用户,不支持此功能。Tomcat此项配置良好,无需调整
非 Tomcat建议使用 Tomcat 容器部署

当监测到端口、JDK、堆外内存影响功能使用时,除在「修改意见」处显示提示外,还会通过「平台消息」和平台右下角「弹窗消息」提醒用户。如下图所示:

消息提醒内容为:当前宕机自动处理工具不可用,为保证功能正常运行,建议你点击处理查看详情

点击「处理」即可跳转到跳转到「宕机处理」平台配置页面,从而对其进行相应的处理。

2.2 宕机处理

用户可以在「宕机处理」位置做一些配置设置,可设置的项为宕机自动处理、自动导出内存堆栈、宕机自动重启、宕机通知、端口设置。如下图所示:

2.2.1 宕机自动处理

当系统配置满足「运行监测」中的运行条件时,工具自动运行,此开关默认开启;当系统配置不满足运行条件时,开关图标灰化,不能编辑修改。

2.2.2 自动导出内存堆栈

若「宕机自动处理」未开启,此项灰化处理,不能编辑修改;若「宕机自动处理」开启,此项默认关闭,开启后当发生宕机时,会自动导出宕机日志,导出位置为:%Tomcat%\logs\FineLog\日期

开关开启时,会对工具状态和当前系统情况做检测。检测系统是否集成 BI,若集成 BI,弹窗提示:该功能暂不支持 BI 系统。如下图所示:

点击确定或关闭按钮弹窗关闭,开关不开启。

2.2.3 宕机自动重启

若「宕机自动处理」未开启,此项灰化处理,不能编辑修改;若「宕机自动处理」开启,此项默认关闭,开启后当发生宕机时会自动重启工程。

开关开启时,会对工具状态和当前系统情况做检测。

1)检测系统是否集成 BI,若集成 BI,点击后弹窗提示:该功能暂不支持 BI 系统。如下图所示:

点击确定或关闭按钮后弹窗关闭,开关不开启。

2)检测是否为 Windows 操作系统,是否为 Windows 服务形式。

若系统为 Windows 操作系统且为 Windows 服务形式,弹窗提示:该功能暂不支持当前系统。如下图所示:

点击确定和关闭按钮后弹窗关闭,开关不开启。

若系统为 Windows 操作系统且非Windows 服务形式,弹窗提示:当前系统可能会存在重启失败。如下图所示:

点击确认或关闭按钮后关闭弹窗,开关开启。

检测时,若以上问题同时存在,仅提示当前问题中主要度最高的一个,重要度排序为:该功能暂不支持当前系统>该功能暂不支持 BI >当前系统可能会存在重启失败。

2.2.4 宕机通知

「宕机自动处理」未开启,此项灰化处理,不能编辑修改;若「宕机自动处理」开启,此项默认关闭,开启后,可配置短信提醒、平台消息提醒、邮箱提醒,当发生宕机时会按配置的通知方式通知到用户。

2.2.5 端口设置

「宕机处理工具」默认的端口为 12100,当 12100 端口异常时,可以在此处配置其他端口号。

输入新的端口号后,点击「测试」,若新的端口号存在异常,则弹窗提示:端口异常,请重新设置。如下图所示:

若端口无异常,则弹窗提示:端口可用,保存后宕机自动处理工具将在新端口重启。如下图所示:

2.3. 处理记录

内存堆栈导出记录」和「服务器重启记录」分别记录了自动生成 DUMP 文件记录和服务器重启的记录。如下图所示:

其中包括导出(重启)的开始时间、时长、是否成功、如果失败,失败的原因等。

3. 客户端编辑

工程启动后,用户在浏览器端输入 http://IP:端口(宕机自动处理工具默认端口为12100,若修改了端口,此处为修改后的端口)/operation/tool ,便可以进入宕机工具客户端登录界面,如下图所示:

企业微信截图_16179658208073.png

超管使用账号密码登录后可进入用户端界面,登录失败 5 次登录锁定,限制 60 分钟内不可登录;登录有效期为 15 分钟,超时自动退出。

注:若用户在宕机时被登录锁定,需要用户手动杀掉进程。

用户端界面, 主要有工程运行情况监控和输出堆栈两个功能,右上角有「注销登录」按钮,点击可退出登录。如下图所示:

企业微信截图_16179658384716.png

3.1 运行监控

工程运行监控中,若服务器正常运行,则画面显示:正常运行中。如下图所示:

若发生宕机,则画面显示:已宕机,正在处理中。如下图所示:

宕机后,工具自动处理时,用户可手动终止工具对于宕机问题的处理,进行终止后,页面显示:已终止宕机自动处理,请及时手动重启系统。如下图所示:

宕机后,小工具重启工程时,若小工具重启工程失败,页面显示:宕机自动重启失败,请及时手动重启系统。如下图所示:

3.2 输出堆栈

用户可以在「输出堆栈」处,导出线程堆栈和内存堆栈文件,点击相应位置导出即可。如下图所示:

导出成功后提示:输出成功,否则提示输出失败,输出的堆栈文件位置为:%Tomcat%\logs\FineLog\日期