管理运维组件

  • 文档创建者:Carly
  • 历史版本:18
  • 最近更新:Carly 于 2025-04-07
  • 1. 概述

    1.1 版本

    运维平台版本功能变更
    V1.5.5
    -
    V1.5.7elasticsearch、skywalking_oap组件默认启动
    V1.7.0组件启停重启时,新增二次确认提示框,以防误操作
    V2.0.0

    交互优化,功能入口位置调整

    V2.1.0更改配置逻辑优化,对内存CPU限制值进行校验
    V2.18.0新增「开发者模式」
    V2.19.0

    1)优化了运维平台组件的内存和 CPU 的默认配置上限
    2)新增对运维平台组件不合理配置的风险提示

    1.2 应用场景

    运维平台中的各个组件(如OPS、Prometheus等)需要持续运行并保持最新版本,以确保系统稳定性和安全性。

    当组件出现异常、资源配置不足或需要升级时,管理员可通过运维组件管理功能快速干预,保障业务连续性。

    1.3 功能简介

    管理员登录运维平台,点击「运维平台管理>运维组件」,支持对运维平台中的运维组件进行管理。

    1)组件状态一览

    • 查看各组件运行状态、基础配置

    • 查看镜像版本、识别待升级组件

    2)运维干预

    • 快速恢复:一键重启异常组件,减少人工排查时间

    • 资源调整:修改 CPU / 内存限制,应对突发负载

    • 版本更新:支持一键升级组件,避免手动替换带来的风险

    2. 组件信息一览

    运维组件页面,展示运维平台中的所有运维组件信息。如下图所示:

    支持展示的运维组件类型包括:

    注:基础版运维平台,不存在链路追踪相关组件,即ElasticsearchSkywalking OAP

    类型组件组件说明
    运维平台相关OPS

    运维平台容器,对FineReport、FineBI等项目进行运维

    Nginx提供负载转发服务,运维平台所有的服务,都从这个入口访问

    OPS Agent

    1)与物理节点绑定,用于管理、升级运维平台的组件

    2)信息收集,用于收集ops所在服务器的指标信息,用于收集nginx、elasticSearch组件的指标信息

    控告警Pushgateway

    临时存储ops-agent收集到的指标,并供prometheus获取

    Prometheus通过pushgateway,获取agent收集的指标数据,并提供给监控仪表板
    Grafana

    用于展示监控仪表板

    Alertmanager

    告警容器,用于告警规则的修改、触发等

    链路追踪Elasticsearch

    采集运维项目中FineReport、FineBI、外接数据库、业务库和其他外置组件的请求

    Skywalking OAP

    用于链路追踪的数据上报和分析整理

    镜像仓库Registry存放docker镜像的仓库

    支持展示的组件各类信息包括:

    信息
    说明
    当前版本当前组件对应的镜像版本
    组件数量该类型组件的容器数量
    可更新版本

    是否存在可更新版本

    如已是最新版本,则显示:当前已为最新版本

    如存在更新版本组件,显示最新镜像版本号,界面右上角支持「一键更新」

    组件配置展示该类组件下所有容器在下文3.3节的配置(如未配置,显示无限制)
    容器名容器名称,方便识别用途
    容器状态容器是否启动

    running:启动

    exited:未启动

    镜像信息容器所使用的镜像信息
    物理节点容器所在服务器的IP地址
    运行时间

    容器的持续运行时间,ops组件会额外显示健康状况

    healthy:容器健康运行

    unhealthy:容器无法正常运行,可能正在重启,请耐心等待变为健康

    配置展示下文3.3节的配置(如未配置,显示无限制)
    操作

    包括多种操作:一键更新、启动、停止、重启、事件、更改配置、终端

    3. 组件操作

    3.1 更新运维组件

    运维平台升级重启后,管理员登录时将自动检测并升级运维组件。

    • 若运维组件升级卡住,可手动点击「一键更新」按钮进行更新。

    • 当所有运维组件均为最新版本时,「一键更新」按钮将灰化,并提示「已为最新版本」。

    详情请参见:内网升级运维平台外网升级运维平台

    3.2 启停运维组件

    支持对组件进行启动、停止、重启等操作,快速启停组件。

    注1:部分组件间存在关联关系,重启某一个组件,会触发其他组件的重启。

    注2:运维平台组件启停,不影响所对接管理的运维项目,不会导致项目跟随启停或不可用。

    注3:运维平台组件关停,可能会影响运维平台功能的使用,具体如下表所示:

    类型组件组件说明
    运维平台相关OPS

    必须启用该组件,如不启用该组件,运维平台直接宕机无法登录

    因此运维组件界面不支持启停ops组件,仅支持重启

    Nginx

    必须启用该组件,所有服务的入口、使用都从这个入口访问,如不启用该组件,无法进入运维平台

    因此运维组件界面不支持启停nginx组件,仅支持重启

    OPS Agent

    必须启用该组件,用于管理组件

    因此运维组件界面不支持启停ops_agent组件,仅支持重启

    监控告警Pushgateway如不启用该组件,「项目监控」中的仪表板无数据
    Prometheus如不启用该组件,「项目监控」中的仪表板无数据,「告警」和「告警中心」无法使用
    Grafana

    如不启用该组件,「项目监控」中的仪表板无法查看

    Alertmanager

    如不启用该组件,「告警」和「告警中心」无法使用

    链路追踪Elasticsearch

    如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用

    Skywalking OAP

    如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用

    镜像仓库
    Registry

    若用户自有仓库,无需启用该组件

    若用户无镜像仓库,可启用该组件,作为「镜像管理」的仓库

    3.3 更改组件配置

    1)点击目标组件对应的「更改配置」,即可进入该组件的更改配置操作界面。

    2)修改配置,点击「确定」即可

    支持修改的配置及其默认值如下表所示:

    组件
    配置项
    说明
    OPSCPU

    配置该组件可占用的服务器CPU上限

    默认值:2Core

    限制值:2Core

    注:如CPU上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」

    内存

    配置该组件可占用的服务器内存上限

    默认值:4G

    限制值:≥(xmx+1.5)G

    注1:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。

    注2:如内存上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」

    xmx

    配置该组件的最大堆内存

    默认值:2G

    限制值:≥(1.5+X*0.05+Y*0.1)G

    X:已对接的非运维平台部署的项目节点总数

    Y:已对接的运维平台部署的项目节点总数

    注1:修改运维平台OPS组件的xmx配置,会自动触发运维平台的重启,请勿在工作时间操作

    注2:如xmx配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」

    注3:如xmx配置不满足限制要求,导致资源不足以对接新项目,在运维平台首页会高亮提醒「当前运维平台配置已经达到上限,将影响接入或部署新项目,请尽快调大ops的xmx配置」

    NginxCPU

    配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:1G

    限制值:请输入大于零的数字,强烈建议大于默认值

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    SSL配置
    为运维平台配置SSL
    client_max_body_size允许用户最大上传数据大小,根据业务需求调整上传文件大小限制,默认值为100M
    proxy_buffer_size设置缓冲区的大小为size,例如64k
    proxy_buffers每个连接设置缓冲区的数量和大小,proxy_buffers [number] [size],例如32 64k
    proxy_busy_buffers_size当开启缓冲响应的功能以后,在没有读到全部响应的情况下,写缓冲到达一定大小时,nginx一定会向客户端发送响应,直到缓冲小于此值,例如64k
    proxy_connect_timeoutnginx连接到后端服务器的超时时间,是建立连接的时间,而不是等待后端返回响应的时间,例如60s
    proxy_read_timeout

    读取超时,默认60s

    如果在超时时间内服务器未返回任何数据,视为超时

    如果没有大数据量计算或导出的模板,则建议配置不超过100s

    如果有大数据量计算或导出的模板,则根据最长耗时的模板时间进行配置

    proxy_send_timeout

    写入超时,默认60s

    如果在超时时间内服务器未收到数据表示超时,视为超时

    如果没有大数据量计算或导出的模板,则建议配置不超过100s

    如果有大数据量计算或导出的模板,则根据最长耗时的模板时间进行配置

    OPS Agent

    CPU配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:1G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    • 容器内存必须满足当前内存配置,即必须大于等于0.5+xmx

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    xmx

    配置该组件的最大堆内存

    默认值:0.5G

    限制值:

    • 请输入大于零的数,建议大于默认值

    • 修改这部分值会联动触发OPS Agent内存数值的校验

    PushgatewayCPU配置该组件可占用的服务器CPU上限

    默认值:2Core

    限制值:≥(0.5*对接的项目数量)Core,最低2Core

    注:如CPU上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:Pushgateway

    内存

    配置该组件可占用的服务器内存上限

    默认值:1G

    限制值:≥(0.2+0.2*对接的项目数量)G,最低0.5G

    注1:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。

    注2:如内存配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:Pushgateway

    PrometheusCPU配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:2G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    • 默认值可支撑同时查询7天范围内的数据,如果需要查询更长时间数据或多用户并发查询场景较多,建议提高内存限制

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    GrafanaCPU配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:1G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    • 建议关注平台监控中内存监控情况,如果并发用户较多,建议提高内存限制

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    AlertmanagerCPU

    配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:0.5G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    ElasticsearchCPU

    配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:4G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    • 容器内存必须满足当前内存配置,即必须大于等于1.5*xmx

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    xmx

    配置该组件的最大堆内存

    默认值:2G

    限制值:

    • 请输入大于零的数,建议大于默认值

    • 修改这部分值会联动触发Elasticsearch内存数值的校验

    Skywalking OAPCPU

    配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存

    配置该组件可占用的服务器内存上限

    默认值:3G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    RegistryCPU

    配置该组件可占用的服务器CPU上限

    默认值:1Core

    限制值:请输入大于零的数字,强烈建议大于默认值

    内存配置该组件可占用的服务器内存上限

    默认值:1G

    限制值:

    • 请输入大于零的数字,强烈建议大于默认值

    • 容器内存不得大于服务器内存

    注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

    3.4 进入终端

    尽管运维平台已经提供了很多界面化操作,但管理员仍有可能需要使用终端工具连接组件,对组件进行管理。

    运维平台提供终端工具,支持快速进入组件终端。如下图所示:

    左侧显示「命令行页面」,用户可输入命令进行查询/执行,支持一键清空命令行页面。

    右侧显示该组件的具体容器信息。

    注1:组件必须在启动running状态,方可进入组件终端。否则提示「当前容器状态下不支持进入终端」。

    注2:单个运维平台,最多支持同时连接3个组件终端。超过3个时,打开提示「最多可连接3个终端,当前已达上限,请关闭其他终端后重试。」

    注3:若连接终端后,持续10分钟无命令操作,自动端口连接,提示「终端连接断开,请重新连接」。如下图所示:

    3.5 修改运维平台端口

    运维平台的访问端口,即运维平台的Nginx组件端口。

    运维平台部署成功后,如需调整运维平台访问端口,可通过本节方案修改

    1)确保端口可用性

    请确保所准备的端口是否已被使用,如已被使用,请安排好其他空闲端口。

    端口占用检查和防火墙放行方法请参考:端口占用检查与防火墙配置

    2)进入开发者模式

    • 管理员登录运维平台,点击「运维平台管理>运维组件」。

    • 在组件管理界面下滑到最底部,点击「进入开发者模式>确定」,即可进入开发者模式。


    3)变更端口

    • 找到nginx组件容器,点击「变更端口」。

    • 修改需要调整的主机端口。

    4)自动重启容器

    点击「确定」,出现提示「确定更改并重启容器?」

    点击「确定」,运维平台会自动重启。请耐心等待重启成功,即可修改成功。

    运维平台会自动调整以下内容:

    • 运维平台的nginx转发策略会直接跟随变更

    • 运维平台与项目之间的对接会自动兼容处理

    • 自动重启容器,新端口配置生效


    附件列表


    主题: 运维平台管理
    已经是第一篇
    已经是最后一篇
    • 有帮助
    • 没帮助
    • 只是浏览
    中文(简体)

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    9s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持

    反馈已提交

    网络繁忙