历史版本4 :场景案例-应用监控与告警 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 用户痛点

  • 一个FR/BI集群项目,在多台服务器上分布着各个节点,管理员需要监控每一个节点正常运行

  • 一个FR/BI项目,不仅只有FR/BI组件,还有外接数据库、负载转发、状态服务器、文件服务器等组件,管理员需要监控每一个组件正常运行

  • 除了确保以上服务器、工程、组件的正常运行,管理员需要监控他们的配置是否正常,是否有异常现象

  • 当出现异常之后,类似于负载异常或组件连接异常,管理员需要能及时收到相关通知信息,而不是事后补救

  • 为了分析这些异常,管理员需要登录到这些服务器后台去拿对应的日志,获取很困难

1.2 解决思路

通过一个运维平台可以对接多个节点/应用,同时能够监控多个环境,任意一个节点/应用出现问题都可以统一预警,也能够通过运维平台方便的获取到信息。

1)监控项目正常运行:项目是否可用、节点是否正常、组件是否启动

2)界面化查看项目配置:服务器监控、应用监控、组件监控

3)项目出现异常时预警:企业微信预警、邮件预警、webhook预警

4)获取日志分析异常:支持在线查看日志分析结果,支持下载日志到本地自行分析

2. 案例详情编辑

2.1 添加项目

管理员登录运维平台,点击「运维管理>项目管理」,可添加多个项目进行统一管理。

2.2 监控项目正常运行

1)监控项目正常运行

管理员登录运维平台,点击「运维管理>项目管理」,可见各个项目整体的状态。

  • 可用:该工程可用,至少有一个节点存活着

  • 不可用:该工程完全不可用,每个节点都未存活

2)监控集群节点正常运行

管理员登录运维平台,点击「运维管理>集群节点管理」,可见各个项目的各个节点信息及状态

  • 未标红:该节点状态正常,无需关注

  • 标红:该节点状态异常,需要检查节点配置和组件情况

3)监控工程相关组件正常运行

管理员登录运维平台,点击「运维管理>项目管理>组件管理」,可见该项目中各个组件的状态,支持快速启停组件。

  • running:该组件正常运行中

  • exited:该组件未启用,需要启动后方可使用

2.3 界面化查看项目配置

1)展示服务器具体信息

在「监控与告警>服务器监控」界面,监控帆软应用及相关组件运行的服务器的状态,方便及时关注服务器的各项指标情况,避免影响应用的正常运行。


2)展示应用具体信息

在「监控与告警>应用监控」界面,展示帆软应用的运行情况,可以针对单个节点的运行状态的详细数据进行查询。


3)展示项目其他组件信息

在「监控与告警>组件监控」界面,展示项目中各类组件的使用信息。

包括:外接数据库监控、Redis监控、Nginx监控、Elasticsearch监控、Minio组件

2.4 项目出现异常时预警

当应用出现高负载、宕机风险、磁盘空间不足等情况时,需要及时通知管理员。

1)告警规则:运维平台内置了很多告警规则,基本无需用户自行设置。

2)告警方式:在「监控与告警>告警管理>告警方式」中设置告警对象,支持「email、webhook、企业微信」三种方式。

3)发送告警:配置的收件人邮箱收到告警邮件

2.5 获取日志分析异常

为了分析异常时,管理员需要下载工程的日志。

在「日志管理」中,支持在线查看各个项目各个节点的日志分析结果,支持下载日志到本地自行分析。