1. 概述
部署好 FDL 后,我们还需配置项目,让平台完成自动运维。
对于关键项目要定期手动检查,平台出现异常项时,及时进行处理,保证工程的健康运行。
2. 运维说明
具体说明 | 重点内容 |
---|---|
运维监控指导手册(必读) | 正式工程必须 配置外接数据库 外接数据库信息配置文件说明请点击左侧文档查看 |
FDL 提供「健康巡检」功能,可对系统进行定期巡检,确保应用所在的环境及应用内配置合理,以保证应用的正常运行 | |
FDL 包含的日志及说明 | |
FDL 提供内置功能,可监控内存、CPU、磁盘空间是否存在异常 | |
如需对帆软应用的异常及时感知,需实现对帆软应用各项指标的监控告警 建议在备份还原,健康巡检,,磁盘运维,负载管理,宕机处理,重要的数据开发任务等地方开启自带的提醒设置,并设置除了「平台消息」之外的有效触达渠道, 及时发现问题及时处理 | |
宕机时的运维操作 | |
工程定期备份,以确保在用户误操作、版本回退等场景下能够及时恢复 | |
工程更新升级 | |
产品安全加固指导手册(必读) | 工程升级 |
增加密码破解的难度 注:避免使用默认密码或弱口令;建议定期更换密码;不建议将自己的账号和密码分享给其他人 | |
开启登录锁定,避免暴力破解 | |
升级插件,建议全部更新至最新版本 | |
开启配置库安全选项 |
3. 注意事项(必读)
部署工程建议
1)正式工程必须 配置外接数据库
2)如果资源允许,建议部署测试环境和生产环境。一切涉及到工程整体稳定性的敏感操作,比如升级 JAR,修改非常用设置, 测试新插件新功能等, 建议提前在测试环境验证运行无异常,再上到生产环境。
另外建议定期同步生产环境的配置/任务到测试环境,让测试环境尽可能贴合生产环境的实际场景,尤其是在升级 JAR 等重大操作节点之前。
使用工程建议
1)操作生产环境的时候,应当尽量在不影响业务使用的时间段。
2)建议维护一份公司内关键看板/任务的列表, 在升级操作或其他重大操作完成后, 逐个确认列表项是否正常。
3)建议使用 分级授权 功能。
应当仅系统管理员掌握 FDL 的超管账号。
其他管理需求,建议通过开启分级授权,将必要的管理权限下放给其他次级管理员。
用户权限设置,应当尽可能通过部门角色按照岗责体系设置权限,尽量避免直接给用户分配权限导致权限混乱。
注:对于同一权限实体,用户权限优先级大于部门/角色的权限。如果有用户权限,则直接以用户权限为准。
工程安全建议
1)为避免服务器被恶意攻击,导致服务器无法恢复或敏感数据泄:
服务器后台的 root 密码应当妥善保管, 定期更换;尽量避免使用密码认证,推荐使用公私钥进行认证。
重要的业务系统,服务器后台应当留有审计记录,或者推荐使用堡垒机系统进行连接,在堡垒机上进行连接权限管理和操作留存。
如果条件允许,建议对操作系统做服务器层面的整体镜像备份,避免被恶意攻击后无法从系统内进行恢复。
2)可能会导致工程中文件发生变动的高危操作, 建议对工程整体进行备份,方便出现问题的时候快速整体回滚。
备份时可以排除 Tomcat 日志,备份目录,logdb 目录, bi 抽取数据,FDL 的运行日志等低价值大目录,减少备份体积,提高备份速度。具体目录介绍参考:服务器管理员备份工程
3)将平台自带的自动备份频率调高,建议生产环境一日一备份,并保留更多的备份数量。详情请参见:备份还原
另外,本地备份也不够安全,建议配合服务器磁盘备份,或者使用备份脚本将备份文件备份到远程环境,防止诸如勒索病毒或服务器崩溃或删库跑路等服务器层面故障。
4)如非必要,尽可能不要直接修改 FineDB 中的配置项,可能多一个空格就有可能导致配置无法读取,工程无法启动。
如果帆软官方说明必须要修改,建议操作之前千万做好数据库和修改表的再次备份, 如果修改后发现异常, 方便回滚设置。
其他
随着 FDL 的深入使用,工程的性能和可用性要求都会增高,普通的人工运维的方式可能无法及时发现性能问题的早期征兆, 也难以准确把握系统的负载情况,出现问题后缺乏有效的排查定位的材料和手段。
建议搭配专门的监控告警框架与运维管理工具,如果业务方对 FDL 的可用性要求高,并且服务器资源充足的话,建议部署我们的 运维平台
如果后期系统负载很高,单节点压力大的话,建议部署集群提高系统的承载能力,同时多节点可以保证单个节点故障时其他节点继续提供服务。详情请参见:集群与单机