最新历史版本 :管理运维组件 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本功能变更
V1.5.5
-
V1.5.7elasticsearch、skywalking_oap组件默认启动
V1.7.0组件启停重启时,新增二次确认提示框,以防误操作
V2.0.0

交互优化,功能入口位置调整

V2.1.0更改配置逻辑优化,对内存CPU限制值进行校验
V2.18.0新增「开发者模式」
V2.19.0

1)优化了运维平台组件的内存和 CPU 的默认配置上限
2)新增对运维平台组件不合理配置的风险提示

1.2 应用场景

运维平台中的各个组件(如OPS、Prometheus等)需要持续运行并保持最新版本,以确保系统稳定性和安全性。

当组件出现异常、资源配置不足或需要升级时,管理员可通过运维组件管理功能快速干预,保障业务连续性。

1.3 功能简介

管理员登录运维平台,点击「运维平台管理>运维组件」,支持对运维平台中的运维组件进行管理。

1)组件状态一览

  • 查看各组件运行状态、基础配置

  • 查看镜像版本、识别待升级组件

2)运维干预

  • 快速恢复:一键重启异常组件,减少人工排查时间

  • 资源调整:修改 CPU / 内存限制,应对突发负载

  • 版本更新:支持一键升级组件,避免手动替换带来的风险

2. 组件信息一览编辑

运维组件页面,展示运维平台中的所有运维组件信息。如下图所示:

支持展示的运维组件类型包括:

注:基础版运维平台,不存在链路追踪相关组件,即ElasticsearchSkywalking OAP

类型组件组件说明
运维平台相关OPS

运维平台容器,对FineReport、FineBI等项目进行运维

Nginx提供负载转发服务,运维平台所有的服务,都从这个入口访问

OPS Agent

1)与物理节点绑定,用于管理、升级运维平台的组件

2)信息收集,用于收集ops所在服务器的指标信息,用于收集nginx、elasticSearch组件的指标信息

控告警Pushgateway

临时存储ops-agent收集到的指标,并供prometheus获取

Prometheus通过pushgateway,获取agent收集的指标数据,并提供给监控仪表板
Grafana

用于展示监控仪表板

Alertmanager

告警容器,用于告警规则的修改、触发等

链路追踪Elasticsearch

采集运维项目中FineReport、FineBI、外接数据库、业务库和其他外置组件的请求

Skywalking OAP

用于链路追踪的数据上报和分析整理

镜像仓库Registry存放docker镜像的仓库

支持展示的组件各类信息包括:

信息
说明
当前版本当前组件对应的镜像版本
组件数量该类型组件的容器数量
可更新版本

是否存在可更新版本

如已是最新版本,则显示:当前已为最新版本

如存在更新版本组件,显示最新镜像版本号,界面右上角支持「一键更新」

组件配置展示该类组件下所有容器在下文3.3节的配置(如未配置,显示无限制)
容器名容器名称,方便识别用途
容器状态容器是否启动

running:启动

exited:未启动

镜像信息容器所使用的镜像信息
物理节点容器所在服务器的IP地址
运行时间

容器的持续运行时间,ops组件会额外显示健康状况

healthy:容器健康运行

unhealthy:容器无法正常运行,可能正在重启,请耐心等待变为健康

配置展示下文3.3节的配置(如未配置,显示无限制)
操作

包括多种操作:一键更新、启动、停止、重启、事件、更改配置、终端

3. 组件操作编辑

3.1 更新运维组件

运维平台升级重启后,管理员登录时将自动检测并升级运维组件。

  • 若运维组件升级卡住,可手动点击「一键更新」按钮进行更新。

  • 当所有运维组件均为最新版本时,「一键更新」按钮将灰化,并提示「已为最新版本」。

详情请参见:内网升级运维平台外网升级运维平台

3.2 启停运维组件

支持对组件进行启动、停止、重启等操作,快速启停组件。

注1:部分组件间存在关联关系,重启某一个组件,会触发其他组件的重启。

注2:运维平台组件启停,不影响所对接管理的运维项目,不会导致项目跟随启停或不可用。

注3:运维平台组件关停,可能会影响运维平台功能的使用,具体如下表所示:

类型组件组件说明
运维平台相关OPS

必须启用该组件,如不启用该组件,运维平台直接宕机无法登录

因此运维组件界面不支持启停ops组件,仅支持重启

Nginx

必须启用该组件,所有服务的入口、使用都从这个入口访问,如不启用该组件,无法进入运维平台

因此运维组件界面不支持启停nginx组件,仅支持重启

OPS Agent

必须启用该组件,用于管理组件

因此运维组件界面不支持启停ops_agent组件,仅支持重启

监控告警Pushgateway如不启用该组件,「项目监控」中的仪表板无数据
Prometheus如不启用该组件,「项目监控」中的仪表板无数据,「告警」和「告警中心」无法使用
Grafana

如不启用该组件,「项目监控」中的仪表板无法查看

Alertmanager

如不启用该组件,「告警」和「告警中心」无法使用

链路追踪Elasticsearch

如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用

Skywalking OAP

如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用

镜像仓库
Registry

若用户自有仓库,无需启用该组件

若用户无镜像仓库,可启用该组件,作为「镜像管理」的仓库

3.3 更改组件配置

1)点击目标组件对应的「更改配置」,即可进入该组件的更改配置操作界面。

2)修改配置,点击「确定」即可

支持修改的配置及其默认值如下表所示:

组件
配置项
说明
OPSCPU

配置该组件可占用的服务器CPU上限

默认值:2Core

限制值:2Core

注:如CPU上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」

内存

配置该组件可占用的服务器内存上限

默认值:4G

限制值:≥(xmx+1.5)G

注1:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。

注2:如内存上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」

xmx

配置该组件的最大堆内存

默认值:2G

限制值:≥(1.5+X*0.05+Y*0.1)G

X:已对接的非运维平台部署的项目节点总数

Y:已对接的运维平台部署的项目节点总数

注1:修改运维平台OPS组件的xmx配置,会自动触发运维平台的重启,请勿在工作时间操作

注2:如xmx配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」

注3:如xmx配置不满足限制要求,导致资源不足以对接新项目,在运维平台首页会高亮提醒「当前运维平台配置已经达到上限,将影响接入或部署新项目,请尽快调大ops的xmx配置」

NginxCPU

配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:1G

限制值:请输入大于零的数字,强烈建议大于默认值

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

SSL配置
为运维平台配置SSL
client_max_body_size允许用户最大上传数据大小,根据业务需求调整上传文件大小限制,默认值为100M
proxy_buffer_size设置缓冲区的大小为size,例如64k
proxy_buffers每个连接设置缓冲区的数量和大小,proxy_buffers [number] [size],例如32 64k
proxy_busy_buffers_size当开启缓冲响应的功能以后,在没有读到全部响应的情况下,写缓冲到达一定大小时,nginx一定会向客户端发送响应,直到缓冲小于此值,例如64k
proxy_connect_timeoutnginx连接到后端服务器的超时时间,是建立连接的时间,而不是等待后端返回响应的时间,例如60s
proxy_read_timeout

读取超时,默认60s

如果在超时时间内服务器未返回任何数据,视为超时

如果没有大数据量计算或导出的模板,则建议配置不超过100s

如果有大数据量计算或导出的模板,则根据最长耗时的模板时间进行配置

proxy_send_timeout

写入超时,默认60s

如果在超时时间内服务器未收到数据表示超时,视为超时

如果没有大数据量计算或导出的模板,则建议配置不超过100s

如果有大数据量计算或导出的模板,则根据最长耗时的模板时间进行配置

OPS Agent

CPU配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:1G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

  • 容器内存必须满足当前内存配置,即必须大于等于0.5+xmx

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

xmx

配置该组件的最大堆内存

默认值:0.5G

限制值:

  • 请输入大于零的数,建议大于默认值

  • 修改这部分值会联动触发OPS Agent内存数值的校验

PushgatewayCPU配置该组件可占用的服务器CPU上限

默认值:2Core

限制值:≥(0.5*对接的项目数量)Core,最低2Core

注:如CPU上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:Pushgateway

内存

配置该组件可占用的服务器内存上限

默认值:1G

限制值:≥(0.2+0.2*对接的项目数量)G,最低0.5G

注1:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。

注2:如内存配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:Pushgateway

PrometheusCPU配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:2G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

  • 默认值可支撑同时查询7天范围内的数据,如果需要查询更长时间数据或多用户并发查询场景较多,建议提高内存限制

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

GrafanaCPU配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:1G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

  • 建议关注平台监控中内存监控情况,如果并发用户较多,建议提高内存限制

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

AlertmanagerCPU

配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:0.5G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

ElasticsearchCPU

配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:4G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

  • 容器内存必须满足当前内存配置,即必须大于等于1.5*xmx

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

xmx

配置该组件的最大堆内存

默认值:2G

限制值:

  • 请输入大于零的数,建议大于默认值

  • 修改这部分值会联动触发Elasticsearch内存数值的校验

Skywalking OAPCPU

配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存

配置该组件可占用的服务器内存上限

默认值:3G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

RegistryCPU

配置该组件可占用的服务器CPU上限

默认值:1Core

限制值:请输入大于零的数字,强烈建议大于默认值

内存配置该组件可占用的服务器内存上限

默认值:1G

限制值:

  • 请输入大于零的数字,强烈建议大于默认值

  • 容器内存不得大于服务器内存

注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制

3.4 进入终端

尽管运维平台已经提供了很多界面化操作,但管理员仍有可能需要使用终端工具连接组件,对组件进行管理。

运维平台提供终端工具,支持快速进入组件终端。如下图所示:

左侧显示「命令行页面」,用户可输入命令进行查询/执行,支持一键清空命令行页面。

右侧显示该组件的具体容器信息。

注1:组件必须在启动running状态,方可进入组件终端。否则提示「当前容器状态下不支持进入终端」。

注2:单个运维平台,最多支持同时连接3个组件终端。超过3个时,打开提示「最多可连接3个终端,当前已达上限,请关闭其他终端后重试。」

注3:若连接终端后,持续10分钟无命令操作,自动端口连接,提示「终端连接断开,请重新连接」。如下图所示:

3.5 修改运维平台端口

运维平台的访问端口,即运维平台的Nginx组件端口。

运维平台部署成功后,如需调整运维平台访问端口,可通过本节方案修改

1)确保端口可用性

请确保所准备的端口是否已被使用,如已被使用,请安排好其他空闲端口。

端口占用检查和防火墙放行方法请参考:端口占用检查与防火墙配置

2)进入开发者模式

  • 管理员登录运维平台,点击「运维平台管理>运维组件」。

  • 在组件管理界面下滑到最底部,点击「进入开发者模式>确定」,即可进入开发者模式。


3)变更端口

  • 找到nginx组件容器,点击「变更端口」。

  • 修改需要调整的主机端口。

4)自动重启容器

点击「确定」,出现提示「确定更改并重启容器?」

点击「确定」,运维平台会自动重启。请耐心等待重启成功,即可修改成功。

运维平台会自动调整以下内容:

  • 运维平台的nginx转发策略会直接跟随变更

  • 运维平台与项目之间的对接会自动兼容处理

  • 自动重启容器,新端口配置生效