1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.5.5 | - |
V1.5.7 | elasticsearch、skywalking_oap组件默认启动 |
V1.7.0 | 组件启停重启时,新增二次确认提示框,以防误操作 |
V2.0.0 | 交互优化,功能入口位置调整 |
V2.1.0 | 更改配置逻辑优化,对内存CPU限制值进行校验 |
1.2 应用场景
运维平台存在多个组件,需要给管理员提供一个汇总页面维护所有容器。
组件不可用时,需要给管理员提供快速恢复的方法和手段。
1.3 功能简介
运维平台提供「运维组件」功能。
管理员登录运维平台,点击「运维平台管理>运维组件」,支持对运维平台中的运维组件进行管理。
2. 展示信息
运维组件页面,展示运维平台中的所有运维组件信息。如下图所示:
支持展示的运维组件类型包括:
注:基础版运维平台,不存在链路追踪相关组件,即elasticSearch、skywalking_oap
类型 | 组件 | 组件说明 |
---|---|---|
运维平台相关 | ops | 运维平台容器,对FineReport、FineBI等项目进行运维 |
nginx | 提供负载转发服务,所有服务的入口、使用都从这个入口访问 | |
ops-agent | 1)与物理节点绑定,用于管理、升级运维平台的组件 2)信息收集,用于收集ops所在服务器的指标信息,用于收集nginx、elasticSearch组件的指标信息 | |
监控告警 | pushgateway | 临时存储ops-agent收集到的指标,并供prometheus获取 |
prometheus | 通过pushgateway,获取agent收集的指标数据,并提供给监控仪表板 | |
grafana | 用于展示监控仪表板 | |
alertmanager | 告警容器,用于告警规则的修改、触发等 | |
链路追踪 | elasticsearch | 采集运维项目中FineReport、FineBI、外接数据库、业务库和其他外置组件的请求 |
skywalking_oap | 用于链路追踪的数据上报和分析整理 | |
镜像仓库 | registry | 存放docker镜像的仓库 |
支持展示的组件各类信息包括:
信息 | 说明 |
---|---|
当前版本 | 当前组件安装的镜像版本 |
组件数量 | 该类型组件数量 |
可更新版本 | 是否存在可更新版本 如已是最新版本,则显示:当前已为最新版本 如存在更新版本组件,显示最新镜像版本号,界面右上角支持「一键更新」 |
组件配置 | 展示该类组件下所有容器在下文3.3节的配置(如未配置,显示无限制) |
容器名 | 容器名称,方便识别用途 |
容器状态 | 容器是否启动 running:启动 exited:未启动 |
镜像信息 | 容器所使用的镜像信息 |
物理节点 | 容器所在服务器的IP地址 |
运行时间 | 容器的持续运行时间,ops组件会额外显示健康状况 healthy:容器健康运行 unhealthy:容器无法正常运行,可能正在重启,请耐心等待变为健康 |
配置 | 展示下文3.3节的配置(如未配置,显示无限制) |
操作 | 包括多种操作:更新、启动、停止、重启、更改配置、终端 |
3. 组件操作
3.1 更新组件
1)若存在「可更新版本」,可手动点击「一键更新」按钮,即可对该组件进行更新。详情请参见:内网升级运维平台
2)在线升级运维平台后,管理员登录运维平台时,运维平台会自动检测并升级运维组件。详情请参见:外网升级运维平台
3)若当前已为最新版本,则「一键更新」按钮灰化,无法使用,提示「已为最新版本」。
3.2 组件启停
支持对组件进行启动、停止、重启等操作,快速启停组件。
注1:部分组件间存在关联关系,重启某一个组件,会触发其他组件的重启。
注2:运维平台组件启停,不影响所对接管理的运维项目,不会导致项目跟随启停或不可用。
注3:运维平台组件关停,可能会影响运维平台功能的使用,具体如下表所示:
类型 | 组件 | 组件说明 |
---|---|---|
运维平台相关 | ops | 必须启用该组件,如不启用该组件,运维平台直接宕机无法登录 因此运维组件界面不支持启停ops组件,仅支持重启 |
nginx | 必须启用该组件,所有服务的入口、使用都从这个入口访问,如不启用该组件,无法进入运维平台 因此运维组件界面不支持启停nginx组件,仅支持重启 | |
ops-agent | 必须启用该组件,用于管理组件 因此运维组件界面不支持启停ops-agent组件,仅支持重启 | |
监控告警 | pushgateway | 如不启用该组件,「项目监控」中的仪表板无数据 |
prometheus | 如不启用该组件,「项目监控」中的仪表板无数据,「告警」和「告警中心」无法使用 | |
grafana | 如不启用该组件,「项目监控」中的仪表板无法查看 | |
alertmanager | 如不启用该组件,「告警」和「告警中心」无法使用 | |
链路追踪 | elasticsearch | 如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用 |
skywalking_oap | 如不启用该组件,「链路追踪」和「项目监控>健康观测」无法使用 | |
镜像仓库 | registry | 若用户自有仓库,无需启用该组件 若用户无镜像仓库,可启用该组件,作为「镜像管理」的仓库 |
3.3 更改配置
支持修改组件占用的CPU和内存上限。
内存达到上限时会自动重启组件,有业务连续性要求的组件请勿限制。
更改通用配置将自动重启组件,可能影响项目正常运行,请勿在使用期间操作。
注1:请输入大于零的数字。容器CPU不得大于服务器CPU。容器内存不得大于服务器内存。
注2:下表列出的为组件正常运行的最低配置要求。建议用户进行配置时,使用最低配置的两倍,请根据服务器实际情况自行调整。
类型 | 组件 | CPU使用上限 | 内存使用上限 | 内存配置xmx |
---|---|---|---|---|
运维平台相关 | ops | 2Core | - | - |
nginx | 1Core | - | - | |
ops-agent | 1Core | - | 1G | |
监控告警 | pushgateway | 0.1Core | 0.1G | 0.1G |
prometheus | 1Core | 1G | - | |
grafana | 1Core | 1G | - | |
alertmanager | 1Core | 1G | - | |
链路追踪 | elasticsearch | 1Core | - | 2G |
skywalking_oap | 1Core | - | 2G | |
镜像仓库 | registry | 1Core | - | - |
3.4 进入终端
尽管运维平台已经提供了很多界面化操作,但管理员仍有可能需要使用终端工具连接组件,对组件进行管理。
运维平台提供终端工具,支持快速进入组件终端。如下图所示:
左侧显示「命令行页面」,用户可输入命令进行查询/执行,支持一键清空命令行页面。
右侧显示该组件的具体容器信息。
注1:组件必须在启动running状态,方可进入组件终端。否则提示「当前容器状态下不支持进入终端」。
注2:单个运维平台,最多支持同时连接3个组件终端。超过3个时,打开提示「最多可连接3个终端,当前已达上限,请关闭其他终端后重试。」
注3:若连接终端后,持续10分钟无命令操作,自动端口连接,提示「终端连接断开,请重新连接」。如下图所示: