反馈已提交

网络繁忙

运维平台场景案例

  • 文档创建者:Carly
  • 历史版本:5
  • 最近更新:Carly 于 2023-07-10
  • 场景主题
    场景痛点解决思路
    应用宕机处理与分析

    1)没有收集宕机信息

    发生了内存宕机类问题,由于生产环境,必须要第一时间恢复环境,没有来得及登录到后台输入命令收集宕机信息,导致问题无法定位。

    2)无法24h值班监守

    夜间发生了宕机,由于没有人24h监控,或者由于没有办法触碰到内网环境,导致第二天才能够恢复,导致发生了生产事故。

    运维平台自动识别宕机情况,并且自动采集宕机信息,采集完信息后,自动重启工程,保证工程持久运行。

    1)宕机前的预防

    为了防止宕机时无人值守,需要开启宕机处理策略,确保运维平台可以自动重启工程。

    2)宕机时的采集

    宕机时,自动导出内存堆栈日志信息

    3)采集后的恢复

    宕机信息采集完成后,运维平台帮助管理员自动重启工程、恢复进程。

    4)恢复后的分析

    宕机时,运维平台会自动导出内存堆栈,可以给出针对宕机的原因分析和解决方案,可以自动对宕机堆栈进行分析。

    应用配置修改与启停

    1)组件配置修改麻烦

    组件配置在运维过程中经常需要修改,每种组件修改位置和方法不完全相同,容易修改错误,因此修改成本高

    对于FR/BI项目组件。管理员常常需要对Nginx/Redis/配置库进行配置修改

    对于FR/BI工程,管理员常常需要修改工程配置,确保工程平稳运行

    2)修改后重启组件麻烦

    组件的配置修改,一般都需要配合组件的重启

    重启组件一般都需要登录到后台操作,操作成本高

    配置修改万一出错,需要反复重启,成本加倍

    针对Nginx/Redis/配置库、FR/BI工程,

    运维平台分别提供界面化组件修改和组件启停功能

    应用监控与告警

    1)工程节点多,管理麻烦

    一个FR/BI集群项目,在多台服务器上分布着各个节点,管理员需要监控每一个节点正常运行

    2)集群组件多,管理麻烦

    一个FR/BI项目,不仅只有FR/BI组件,还有外接数据库、负载转发、状态服务器、文件服务器等组件,管理员需要监控每一个组件正常运行

    3)监测组件配置异常

    除了确保以上服务器、工程、组件的正常运行,管理员需要监控他们的配置是否正常,是否有异常现象

    当出现异常之后,类似于负载异常或组件连接异常,管理员需要能及时收到相关通知信息,而不是事后补救

    4)日志获取困难,分析门槛高

    为了分析这些异常,管理员需要登录到这些服务器后台去拿对应的日志,获取很困难

    通过一个运维平台可以对接多个节点/应用,同时能够监控多个环境,任意一个节点/应用出现问题都可以统一预警,也能够通过运维平台方便的获取到信息。

    1)监控项目正常运行

    项目是否可用、节点是否正常、组件是否启动

    2)界面化查看项目配置

    服务器监控、应用监控、组件监控

    3)项目出现异常时预警

    企业微信预警、邮件预警、webhook预警

    4)获取日志分析异常

    支持在线查看日志分析结果,支持下载日志到本地自行分析

    应用资源分配

    1)保障核心业务性能和稳定性

    公司中有多个部门,可能存在高并发访问,需要优先确保一些重要业务/用户优先使用资源(例如领导使用,对外大屏,会议使用等)。

    2)业务级别故障隔离,避免不同部门业务相互影响

    系统中存在几张模板性能不好(大数据量导出/填报/预览),业务部门不希望对模板进行限制,但又不想影响到其他业务。

    系统原本的模板正常运行,新增了一些功能业务后,希望先在单独环境中使用一段时间,不要影响到原有业务。

    3)开发发布环境统一但互不影响

    公司没有测试系统,测试和生产环境在同一个应用中,需要将他们隔离到不同节点,不互相影响。

    运维平台提供资源分配相关功能。

    1)资源优先级管理

    管理员可对系统业务(目录、模板、仪表板、公共链接)和用户(支持按照部门、角色、用户筛选)进行优先级排序,确保高优先级业务优先调用系统资源

    2)资源隔离

    集群多节点应用,可以根据节点拆分为多个业务组,将不同类型的业务(按照测试/生产、原有/新增、预览/填报)放置到不同业务组中,确保互相不影响。

    3)调度管理

    使用调度管理功能,可检查系统中不同时段的调度压力,合理设置业务定时任务的触发时间。

    4)组件管理

    一个FR/BI应用中,有很多组件,运维平台可以限制每个组件对系统CPU和内存的占用,防止某个组件大量占用服务器资源,导致其他组件性能差

    应用健康观测

    1)用户体验差:

    用户向管理员反馈,感觉系统使用卡慢

    用户使用某种仪表板/模板时,感觉卡慢

    2)管理员排查难:

    无法衡量和定位问题

    需要被动的等待用户反馈问题

    需要自行拿日志、打堆栈,排查问题,门槛高

    FineOps运维平台提供健康观测与链路追踪功能,帮助管理员定位用户查看、分析仪表板/报表的性能卡慢问题。

    1)提前预警

    管理员可以自行查看系统健康观测,在用户反馈前主动发现系统出现了卡慢,无需被动等待

    2)数据还原

    将用户实际体验,以数据形式准确展示出来

    3)快速定位

    还原用户真实体验,并将定位时间从缩短至10分钟内

    项目备份还原

    FineReport/FineBI提供了「备份还原」功能,但是存在一些不足。

    1)无法异地备份

    工程部署在A服务器上,备份的内容也在A服务器上,结果小明误删除的时候,把工程和备份都删除了。

    2)备份速度缓慢

    随着工程中的模板、数据越来越多,应用备份的速度越来越慢了。

    3)还原逻辑复杂

    JAR包、模板、配置都是分开备份的,但是大多时候需要将这些内容按照时间点统一备份还原。

    4)备份内容不全

    一些重要内容不在备份还原范围内,会影响工程的正常运行,例如classes、resources等。

    针对备份还原的相关诉求,运维平台提供「备份还原」功能,帮助用户对工程进行异地、整体、快速的备份还原。
    应用更新升级

    为满足客户的新需求以及完善之前版本某些功能的不足之处,FineReport/FineBI在不断地更新迭代。

    无论何种场景,在对FineReport/FineBI进行升级之前,都必须对工程进行备份,尽量对除了状态服务器和负载均衡服务以外的工程进行完整备份。

    因为可能存在一些意外情况,导致更新对配置库进行了更改,或部分资源文件出现问题,必须保证升级失败后可以快速回退。

    简单介绍,对于内网/外网、FineReport/FineBI、单机/集群、容器化部署/非容器化部署等工程,不同情况下的最佳升级方案。


    附件列表


    主题: 场景案例
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持