运维平台场景案例 FineReport帮助文档|报表开发|报表使用|学习教程

历史版本2 :运维平台场景案例返回文档

编辑时间:09-23 19:01 历史版本: 最新历史版本上一篇历史版本下一篇历史版本 内容长度:5108 图片数:0目录数:0 修改原因:

场景主题	场景痛点	解决思路
配置健康诊断	客户环境中可能存在不少配置类问题之前的模式总是遇到一个问题解决一个问题，问题总是以事故的形式出现	针对实际系统和应用配置，做全面的诊断，尽可能将配置类问题在问题发生前暴露出来，并且给出处理方式对接运维平台使用健康诊断做全面检测根据检测结果进行快速修复
宕机现场信息采集	发生了内存宕机类问题，由于生产环境，必须要第一时间恢复环境，没有来得及登录到后台输入命令收集宕机信息，导致问题无法定位夜间发生了宕机，由于没有人24h监控，或者由于没有办法触碰到内网环境，导致第二天才能够恢复，导致发生了生产事故	运维平台自动识别宕机情况，并且自动采集宕机信息，采集完信息后，自动重启工程，保证工程持久运行对接运维平台发生内存宕机，自动触发堆栈，histo，dump的采集，并且自动重启系统宕机自动处理对宕机问题进行分析给出可能的原因
配置修改&应用启停	nginx/redis/配置库等问题多，配置修改成本大修改配置操作繁琐，容易改错工程和组件启停操作成本高，需要登录到后台操作	前端可视化界面进行组件的配置修改和启停对接运维平台容器管理页面选择对应的组件进行参数选择和值的修改操作在容器管理页面进行组件的重启让配置生效
磁盘占用预警	不少客户都遇到过由于磁盘满而导致的宕机在磁盘满之后，会手动进行一些清理，但是隔了一段时间，再次出现由于磁盘满而导致的宕机	可视化的监控磁盘，并且在占用高的时候给出预警，并且还能够通过运维平台来对资源进行清理
多应用/多节点监控预警，信息获取	集群多个节点，每一个节点的信息获取非常困难，需要一个一个登录到节点后台去拿对应的日志有多个应用，每一个应用发生问题的时候都需要去对应的机器上面查看资源情况，对应需要安排一个单独的运维人员	通过一个运维平台做多个节点/应用的对接，同时能够监控多个环境，任一一个节点/应用出现问题都可以统一预警，也能够通过运维平台方便的获取到信息集群/多个应用对接运维平台可以任意选择想要监控的应用，查看应用运行状态其中一个节点/应用发生负载高的问题时，能够自动触发告警到管理员