1. 概述编辑
1.1 用户痛点
一个FR/BI集群项目,在多台服务器上分布着各个节点,管理员需要监控每一个节点正常运行
一个FR/BI项目,不仅只有FR/BI组件,还有外接数据库、负载转发、状态服务器、文件服务器等组件,管理员需要监控每一个组件正常运行
除了确保以上服务器、工程、组件的正常运行,管理员需要监控他们的配置是否正常,是否有异常现象
当出现异常之后,类似于负载异常或组件连接异常,管理员需要能及时收到相关通知信息,而不是事后补救
为了分析这些异常,管理员需要登录到这些服务器后台去拿对应的日志,获取很困难
1.2 解决思路
通过一个运维平台可以对接多个节点/应用,同时能够监控多个环境,任意一个节点/应用出现问题都可以统一预警,也能够通过运维平台方便的获取到信息。
1)监控项目正常运行:项目是否可用、节点是否正常、组件是否启动
2)界面化查看项目配置:服务器监控、应用监控、组件监控
3)项目出现异常时预警:企业微信预警、邮件预警、webhook预警
4)获取日志分析异常:支持在线查看日志分析结果,支持下载日志到本地自行分析
2. 案例详情编辑
2.1 添加项目
管理员登录运维平台,点击「运维管理>项目管理」,可添加多个项目进行统一管理。
2.2 监控项目正常运行
1)监控项目正常运行
管理员登录运维平台,点击「运维管理>项目管理」,可见各个项目整体的状态。
可用:该工程可用,至少有一个节点存活着
不可用:该工程完全不可用,每个节点都未存活
2)监控集群节点正常运行
管理员登录运维平台,点击「运维管理>集群节点管理」,可见各个项目的各个节点信息及状态
未标红:该节点状态正常,无需关注
标红:该节点状态异常,需要检查节点配置和组件情况
3)监控工程相关组件正常运行
管理员登录运维平台,点击「运维管理>项目管理>组件管理」,可见该项目中各个组件的状态,支持快速启停组件。
running:该组件正常运行中
exited:该组件未启用,需要启动后方可使用
2.3 界面化查看项目配置
1)展示服务器具体信息
在「监控与告警>服务器监控」界面,监控帆软应用及相关组件运行的服务器的状态,方便及时关注服务器的各项指标情况,避免影响应用的正常运行。
2)展示应用具体信息
在「监控与告警>应用监控」界面,展示帆软应用的运行情况,可以针对单个节点的运行状态的详细数据进行查询。
3)展示项目其他组件信息
在「监控与告警>组件监控」界面,展示项目中各类组件的使用信息。
包括:外接数据库监控、Redis监控、Nginx监控、Elasticsearch监控、Minio组件
2.4 项目出现异常时预警
当应用出现高负载、宕机风险、磁盘空间不足等情况时,需要及时通知管理员。
1)告警规则:运维平台内置了很多告警规则,基本无需用户自行设置。
2)告警方式:在「监控与告警>告警管理>告警方式」中设置告警对象,支持「email、webhook、企业微信」三种方式。
3)发送告警:配置的收件人邮箱收到告警邮件
2.5 获取日志分析异常
为了分析异常时,管理员需要下载工程的日志。
在「日志管理」中,支持在线查看各个项目各个节点的日志分析结果,支持下载日志到本地自行分析。