1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.5.5 | - |
V1.5.7 | elasticsearch、skywalking_oap组件默认启动 |
V1.7.0 | 组件启停重启时,新增二次确认提示框,以防误操作 |
V2.0.0 | 交互优化,功能入口位置调整 |
V2.1.0 | 更改配置逻辑优化,对内存CPU限制值进行校验 |
V2.18.0 | 新增「开发者模式」 |
V2.19.0 | 1)优化了运维平台组件的内存和 CPU 的默认配置上限 |
1.2 应用场景
运维平台中的各个组件(如OPS、Prometheus等)需要持续运行并保持最新版本,以确保系统稳定性和安全性。
当组件出现异常、资源配置不足或需要升级时,管理员可通过运维组件管理功能快速干预,保障业务连续性。
1.3 功能简介
管理员登录运维平台,点击「运维平台管理>运维组件」,支持对运维平台中的运维组件进行管理。
1)组件状态一览
查看各组件运行状态、基础配置
查看镜像版本、识别待升级组件
2)运维干预
快速恢复:一键重启异常组件,减少人工排查时间
资源调整:修改 CPU / 内存限制,应对突发负载
版本更新:支持一键升级组件,避免手动替换带来的风险
2. 组件信息一览
运维组件页面,展示运维平台中的所有运维组件信息。如下图所示:
支持展示的运维组件类型包括:
注:基础版运维平台,不存在链路追踪相关组件,即Elasticsearch、Skywalking OAP
类型 | 组件 | 组件说明 |
---|---|---|
运维平台相关 | OPS | 运维平台容器,对FineReport、FineBI等项目进行运维 |
Nginx | 提供负载转发服务,运维平台所有的服务,都从这个入口访问 | |
OPS Agent | 1)与物理节点绑定,用于管理、升级运维平台的组件 2)信息收集,用于收集ops所在服务器的指标信息,用于收集nginx、elasticSearch组件的指标信息 | |
监控告警 | Pushgateway | 临时存储ops-agent收集到的指标,并供prometheus获取 |
Prometheus | 通过pushgateway,获取agent收集的指标数据,并提供给监控仪表板 | |
Grafana | 用于展示监控仪表板 | |
Alertmanager | 告警容器,用于告警规则的修改、触发等 | |
链路追踪 | Elasticsearch | 采集运维项目中FineReport、FineBI、外接数据库、业务库和其他外置组件的请求 |
Skywalking OAP | 用于链路追踪的数据上报和分析整理 | |
镜像仓库 | Registry | 存放docker镜像的仓库 |
支持展示的组件各类信息包括:
信息 | 说明 |
---|---|
当前版本 | 当前组件对应的镜像版本 |
组件数量 | 该类型组件的容器数量 |
可更新版本 | 是否存在可更新版本 如已是最新版本,则显示:当前已为最新版本 如存在更新版本组件,显示最新镜像版本号,界面右上角支持「一键更新」 |
组件配置 | 展示该类组件下所有容器在下文3.3节的配置(如未配置,显示无限制) |
容器名 | 容器名称,方便识别用途 |
容器状态 | 容器是否启动 running:启动 exited:未启动 |
镜像信息 | 容器所使用的镜像信息 |
物理节点 | 容器所在服务器的IP地址 |
运行时间 | 容器的持续运行时间,ops组件会额外显示健康状况 healthy:容器健康运行 unhealthy:容器无法正常运行,可能正在重启,请耐心等待变为健康 |
配置 | 展示下文3.3节的配置(如未配置,显示无限制) |
操作 | 包括多种操作:一键更新、启动、停止、重启、事件、更改配置、终端 |
3. 组件操作
3.1 更新运维组件
运维平台升级重启后,管理员登录时将自动检测并升级运维组件。
若运维组件升级卡住,可手动点击「一键更新」按钮进行更新。
当所有运维组件均为最新版本时,「一键更新」按钮将灰化,并提示「已为最新版本」。
3.2 启停运维组件
支持对组件进行启动、停止、重启等操作,快速启停组件。
注1:部分组件间存在关联关系,重启某一个组件,会触发其他组件的重启。
注2:运维平台组件启停,不影响所对接管理的运维项目,不会导致项目跟随启停或不可用。
注3:运维平台组件关停,可能会影响运维平台功能的使用,具体如下表所示:
类型 | 组件 | 组件说明 |
---|---|---|
运维平台相关 | OPS | 必须启用该组件,如不启用该组件,运维平台直接宕机无法登录 因此运维组件界面不支持启停ops组件,仅支持重启 |
Nginx | 必须启用该组件,所有服务的入口、使用都从这个入口访问,如不启用该组件,无法进入运维平台 因此运维组件界面不支持启停nginx组件,仅支持重启 | |
OPS Agent | 必须启用该组件,用于管理组件 因此运维组件界面不支持启停ops_agent组件,仅支持重启 | |
监控告警 | Pushgateway | 如不启用该组件,「项目监控」中的仪表板无数据 |
Prometheus | 如不启用该组件,「项目监控」中的仪表板无数据,「告警」和「告警中心」无法使用 | |
Grafana | 如不启用该组件,「项目监控」中的仪表板无法查看 | |
Alertmanager | 如不启用该组件,「告警」和「告警中心」无法使用 | |
链路追踪 | Elasticsearch | 如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用 |
Skywalking OAP | 如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用 | |
镜像仓库 | Registry | 若用户自有仓库,无需启用该组件 若用户无镜像仓库,可启用该组件,作为「镜像管理」的仓库 |
3.3 更改组件配置
1)点击目标组件对应的「更改配置」,即可进入该组件的更改配置操作界面。
2)修改配置,点击「确定」即可。
支持修改的配置及其默认值如下表所示:
组件 | 配置项 | 说明 |
---|---|---|
OPS | CPU | 配置该组件可占用的服务器CPU上限 默认值:2Core 限制值:≥2Core 注:如CPU上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」 |
内存 | 配置该组件可占用的服务器内存上限 默认值:4G 限制值:≥(xmx+1.5)G 注1:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。 注2:如内存上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」 | |
xmx | 配置该组件的最大堆内存 默认值:2G 限制值:≥(1.5+X*0.05+Y*0.1)G X:已对接的非运维平台部署的项目节点总数 Y:已对接的运维平台部署的项目节点总数 注1:修改运维平台OPS组件的xmx配置,会自动触发运维平台的重启,请勿在工作时间操作 注2:如xmx配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:OPS」 注3:如xmx配置不满足限制要求,导致资源不足以对接新项目,在运维平台首页会高亮提醒「当前运维平台配置已经达到上限,将影响接入或部署新项目,请尽快调大ops的xmx配置」 | |
Nginx | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:1G 限制值:请输入大于零的数字,强烈建议大于默认值 注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
SSL配置 | 为运维平台配置SSL | |
client_max_body_size | 允许用户最大上传数据大小,根据业务需求调整上传文件大小限制,默认值为100M | |
proxy_buffer_size | 设置缓冲区的大小为size,例如64k | |
proxy_buffers | 每个连接设置缓冲区的数量和大小,proxy_buffers [number] [size],例如32 64k | |
proxy_busy_buffers_size | 当开启缓冲响应的功能以后,在没有读到全部响应的情况下,写缓冲到达一定大小时,nginx一定会向客户端发送响应,直到缓冲小于此值,例如64k | |
proxy_connect_timeout | nginx连接到后端服务器的超时时间,是建立连接的时间,而不是等待后端返回响应的时间,例如60s | |
proxy_read_timeout | 读取超时,默认60s 如果在超时时间内服务器未返回任何数据,视为超时 如果没有大数据量计算或导出的模板,则建议配置不超过100s 如果有大数据量计算或导出的模板,则根据最长耗时的模板时间进行配置 | |
proxy_send_timeout | 写入超时,默认60s 如果在超时时间内服务器未收到数据表示超时,视为超时 如果没有大数据量计算或导出的模板,则建议配置不超过100s 如果有大数据量计算或导出的模板,则根据最长耗时的模板时间进行配置 | |
OPS Agent | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:1G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
xmx | 配置该组件的最大堆内存 默认值:0.5G 限制值:
| |
Pushgateway | CPU | 配置该组件可占用的服务器CPU上限 默认值:2Core 限制值:≥(0.5*对接的项目数量)Core,最低2Core 注:如CPU上限配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:Pushgateway」 |
内存 | 配置该组件可占用的服务器内存上限 默认值:1G 限制值:≥(0.2+0.2*对接的项目数量)G,最低0.5G 注1:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。 注2:如内存配置不满足限制要求,在运维平台首页会高亮提醒「运维平台组件存在配置不足风险,可能对运维平台功能产生影响,请尽快对以下组件更改配置:Pushgateway」 | |
Prometheus | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:2G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
Grafana | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:1G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
Alertmanager | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:0.5G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
Elasticsearch | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:4G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
xmx | 配置该组件的最大堆内存 默认值:2G 限制值:
| |
Skywalking OAP | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:3G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 | |
Registry | CPU | 配置该组件可占用的服务器CPU上限 默认值:1Core 限制值:请输入大于零的数字,强烈建议大于默认值 |
内存 | 配置该组件可占用的服务器内存上限 默认值:1G 限制值:
注:内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制 |
3.4 进入终端
尽管运维平台已经提供了很多界面化操作,但管理员仍有可能需要使用终端工具连接组件,对组件进行管理。
运维平台提供终端工具,支持快速进入组件终端。如下图所示:
左侧显示「命令行页面」,用户可输入命令进行查询/执行,支持一键清空命令行页面。
右侧显示该组件的具体容器信息。
注1:组件必须在启动running状态,方可进入组件终端。否则提示「当前容器状态下不支持进入终端」。
注2:单个运维平台,最多支持同时连接3个组件终端。超过3个时,打开提示「最多可连接3个终端,当前已达上限,请关闭其他终端后重试。」
注3:若连接终端后,持续10分钟无命令操作,自动端口连接,提示「终端连接断开,请重新连接」。如下图所示:
3.5 修改运维平台端口
运维平台的访问端口,即运维平台的Nginx组件端口。
运维平台部署成功后,如需调整运维平台访问端口,可通过本节方案修改
1)确保端口可用性
请确保所准备的端口是否已被使用,如已被使用,请安排好其他空闲端口。
端口占用检查和防火墙放行方法请参考:端口占用检查与防火墙配置
2)进入开发者模式
管理员登录运维平台,点击「运维平台管理>运维组件」。
在组件管理界面下滑到最底部,点击「进入开发者模式>确定」,即可进入开发者模式。
3)变更端口
找到nginx组件容器,点击「变更端口」。
修改需要调整的主机端口。
4)自动重启容器
点击「确定」,出现提示「确定更改并重启容器?」
点击「确定」,运维平台会自动重启。请耐心等待重启成功,即可修改成功。
运维平台会自动调整以下内容:
运维平台的nginx转发策略会直接跟随变更
运维平台与项目之间的对接会自动兼容处理
自动重启容器,新端口配置生效