健康巡檢

  • 文檔創建者:Suki陈
  • 編輯次數:10
  • 最近更新:Jack.Li 于 2025-07-14
  • 1. 概述

    1.1 版本說明

    版本
    內建系統維運插件版本功能變更
    4.0.13V1.0新增支援一鍵配置檢查項的值
    4.0.13V1.3.1

    新增部分健康巡檢內容

    支援生成並下載巡檢報表

    1.2 應用場景

    如果記憶體環境配置不合理,非常容易導致資料平台當機,且此類當機情況很難復現,排查困難。

    1.3 功能簡介

    FineDataLink 資料平台內建了系統維運插件,直接擁有此功能。

    健康巡檢」,可幫助使用者檢查系統中的各項配置是否合理,以輔助使用者優化環境配置,更好地防止當機情況的發生。

    • 使用者手動檢查/平台定期檢查資料平台各項環境配置是否合理;

    • 當系統環境配置不合理時,推播訊息給使用者;

    • 為使用者提供系統環境配置的合理改進指導;

    QQ20250714-100819.png

    本文將簡單介紹健康巡檢功能的檢查邏輯和檢查項。

    2. 系統檢查項

    V1.3.1 之前版本的插件,僅支援環境配置檢查。

    V1.3.1 及之後版本的插件,支援進行的巡檢內容,包括系統檢查、系統運作狀態、埠檢查、網路檢查、服務聯通性檢查、業務檢查、環境檢查、磁碟檢查、非容器化部署檢查、虛擬機檢查。如下表所示:

    詳情請參見:維運監視指導手冊 第三章。

    巡檢內容
    檢查項
    系統檢查

    僅匯出資訊,不進行配置推薦,檢查項包括:

    作業系統資訊、時區資訊、glibc/gcc版本、hostname、host檔案資訊、CPU主頻、、核心數、記憶體大小、虛擬記憶體、已使用記憶體、閒置記憶體等

    系統運作狀態
    • 插件資訊:插件名、插件版本、插件是否啟動

    • 註冊授權資訊:工程是否註冊、認證方式

    • 容器版本

    • 工程下資料夾大小異常情況:WEB-INF 下一層的每個資料夾大小

    • 臨時匯出目錄:目錄路徑、目錄剩餘可用空間

    • 工程啟動路徑:目錄路徑

    • WEB-INF 下是否有 web.xml

    • 工程 jar 包資訊:工程各個模組的版本和JAR包日期

    埠檢查
    • 當機檢查:當機自動處理工具使用的埠

    • 叢集埠:叢集各節點埠

    • WebSocket 埠:WebSocket 主要用於重新整理 token、使用者被踢出、平台訊息、記憶體和 CPU 顯示、平台日誌處當前系統線上人數、資料連結編輯狀態的確定

    網路檢查檢查檔案伺服器、外接資料庫、狀態伺服器和應用之間通訊是否正常,是否能夠ping通,是否存在丟包情況
    服務聯通性檢查檢查工程與Redis組件、Sftp組件、FineDB資料庫之間是否聯通
    業務檢查
    • finedb:檢查finedb資料庫的類型,建議配置外接資料庫

    • 外接庫的資料庫編碼/字元集:檢查finedb外接資料庫的資料庫編碼/字元集

    • 日誌級別:建議「管理系統>智慧維運>平台日誌>全局設定」中設定系統日誌級別為 ERROR

    • 日誌清理:建議「管理系統>智慧維運>平台日誌>全局設定」中自動清理超過三個月的日誌

    • 自動備份磁碟佔用限制:建議在「管理系統>智慧維運>備份還原>全局設定」中限制自動備份可佔用磁碟大小

    • 自動備份保留數量限制:建議「管理系統>智慧維運>備份還原>全局設定」中設定的自動備份保留數量不超過 5 份

    • 負載預警開啟:建議開啟「管理系統>智慧維運>負載管理>負載監視」中的「智慧預警」

    • 叢集參數配置:建議配置「管理系統>智慧維運>叢集配置>參數配置」中的內部轉發參數

    • 是否開啟雲端健檢分析

    • 密碼強度限制檢查:建議在「管理系統>系統管理>登入」中開啟密碼強度限制

    環境檢查
    • vm.max_map_count:建議配置 vm.max_map_count 參數為 262144

    • 最大檔案開啟數:建議open_files參數配置不低於65536

    • overcommit_memory:建議vm.overcommit_memory參數配置為0

    • overcommit_ratio:建議vm.overcommit_ratio參數配置為50

    • gblic記憶體公佈相關配置:建議配置export MALLOC_ARENA_MAX=1

    磁碟檢查

    僅匯出資訊,不進行配置推薦,檢查項包括:

    磁碟空間、已使用磁碟空間、閒置磁碟空間、順序讀取、順序寫、隨機讀、小檔案建立、小檔案刪除

    非容器化部署

    僅匯出資訊,不進行配置推薦,檢查項包括:

    進程使用者、伺服器主要資料夾權限

    虛擬機檢查
    • 物理記憶體:僅匯出資訊

    • 堆內記憶體:僅匯出資訊

    • 堆外fineIO讀記憶體:建議JVM fineIO讀記憶體使用堆外記憶體設定為2G

    • 堆外fineIO寫記憶體:建議JVM fineIO寫記憶體使用堆外記憶體設定為1G

    • headless模式:建議配置 -Djava.awt.headless=true 以啟動 headless 模式

    • dump匯出:建議配置HeapDumpOnOutOfMemoryError 及 HeapDumpPath以保證正常匯出dump

    • DisableExplicitGC參數:建議不對 DisableExplicitGC 參數進行配置,此項配置會導致 System.gc()被禁用,影響系統穩定性

    • JDK版本:建議使用「JDK8」中 1.8.0_181 及以上版本

    • 棧空間:建議單執行緒使用棧空間不超過1024KB,即 -Xss 的值不超過 1024

    • 垃圾回收器類型:建議 JVM 使用垃圾回收器類型為 ParallelScavenge

    • 老年代與新生代大小比例:建議堆內老年代與新生代大小比例為 2,即-XX:NewRatio=2

    • recompilationCutoff參數:建議recompilationCutoff相關參數配置值為-1

    • debug模式:建議取消debug模式,刪除兩個參數 -agentlib:jdwp 和 -Xrunjdwp

    • xms配置:建議配置Xms=Xmx

    • zip相關配置-Dsun.zip.disableMemoryMapping:建議配置-Dsun.zip.disableMemoryMapping=true

    • 語言配置-Duser.country:建議配置-Duser.country=CN

    • 語言配置-Duser.language:建議配置-Duser.language=zh

    • codecache配置:建議配置-XX:ReservedCodeCacheSize=250m

    • 安裝包部署:僅匯出資訊

    • 堆疊資訊:僅匯出資訊

    檢查後存在問題的檢查項,會在頁面中展示,如下圖所示:

    QQ20250714-101014.png

    3. 快速修復

    快速修復功能支援一鍵配置系統檢查建議值。

    3.1 不支援的環境

    對於以下環境,不支援快速修復功能:

    1)非 Tomcat 部署環境,不支援快速修復,例如 was 部署、weblogic 部署等。

    2)工程系統中若存在自行設定的 setenv 檔案,不支援快速修復

    3)服務形式啟動的 Tomcat 工程,不支援快速修復

    4)Windows環境下 exe 啟動的 Tomcat 工程,不支援快速修復

    5)系統物理記憶體為 16 GB及以下的環境,不支援快速修復

    6)叢集工程環境,不支援快速修復

    3.2 配置方法

    若當前工程環境滿足快速修復的要求,且存在需要一鍵配置的檢查項,在「系統檢查」頁面左上角出現按鈕「快速修復」。

    點選「快速修復」,即可勾選需要配置的檢查項,點選「應用配置」,即可一鍵配置異常項的值,如下圖所示:

    注1:支援快速修復的檢查項為:堆內記憶體、堆外NIO記憶體、堆外FineIO記憶體、DisableExplicitGC參數、老年代與新生代比例、棧空間、xms配置。

    注2:若沒有檔案讀寫權限或者無法修改配置檔案時,提示「應用配置失敗:沒有配置檔案讀寫權限」,點選「確定」,則修改失敗,傳回系統檢查介面。

    1695885321idqF.png

    配置成功後,跳出提示「應用配置成功,重啟伺服器後生效」。重啟伺服器後,可以發現剛剛的異常項均已成功配置。


    4. 巡檢報表

    每一次健康巡檢結束後,會生成一個巡檢報表。使用者可將報表下載到本地,或線上預覽。如下圖所示:

    Snipaste_2025-07-14_10-14-18.png

    健康巡檢報表支援查看異常檢查項或全部檢查項,報表範例如下圖所示:

    QQ20250714-101521.png

    5. 觸發檢查

    5.1 手動檢查

    系統重啟後,每小時獲取一次系統的配置情況。

    第一次進行健康巡檢時,需要點選「開始巡檢」按鈕,系統自動進行檢查,獲取最近一次的系統配置,更新檢查結果。

    Snipaste_2025-07-14_10-17-37.png

    再次進行進行健康巡檢時,點選「重新診斷」按鈕,系統自動進行檢查,獲取最近一次的系統配置,更新檢查結果。

    QQ20250714-101805.png

    5.2 自動檢查

    在「健康巡檢處理」頁面,管理者可開啟「系統自動檢查」並儲存。

    開啟後,系統在每週日上午 11 點進行自動檢查,存在不合理配置時可透過簡訊提醒、平台訊息、郵件提醒三種形式通知管理者。

    QQ20250714-101904.png

    注:

    1)簡訊提醒:需要開啟簡訊平台,詳細點選 簡訊

    2)郵件提醒:需要配置郵件伺服器,詳細點選 郵箱

    3)平台訊息:需要在負載均衡層面配置websocket埠並且開放,相關文檔:Websocket埠被佔用/無法使用

    6. 維運工具

    維運API金鑰,是在「維運平台」中綁定當前工程的API金鑰,詳情請參見:維運平台產品簡介

    1724741271420964.png

    附件列表


    主題: 管理系統
    已經是第一篇
    已經是最後一篇
    • 有幫助
    • 沒幫助
    • 只是瀏覽
    • 评价文档,奖励 1 ~ 100 随机 F 豆!