反饋已提交

網絡繁忙

智慧維運-健康巡檢

1. 概述

1.1 版本

報表伺服器版本系統維運插件版本功能變更
11.0V1.0-
11.0.3V1.0新增支援一鍵配置檢查項的值
11.0.7V1.3.1

新增部分健康巡檢內容

支援生成並下載巡檢報表

1.2 應用場景

如果記憶體環境配置不合理,非常容易導致報表系統當機,且此類當機情況很難復現,排查困難。

1.3 功能簡介

FineReport11.0 中內建了系統維運插件,直接擁有此功能。

「健康巡檢」,可幫助使用者檢查系統中的各項配置是否合理,以輔助使用者優化環境配置,更好地防止當機情況的發生。

  • 使用者手動檢查/平台定期檢查報表系統各項環境配置是否合理

  • 當系統環境配置不合理時,派送訊息給使用者

  • 為使用者提供系統環境配置的合理改進指導

本文將簡單介紹健康巡檢功能的檢查邏輯和檢查項。

2. 系統檢查項

V1.3.1之前版本的插件,僅支援環境配置檢查。

V1.3.1及之後版本的插件,支援進行的巡檢內容,包括系統檢查、系統運作狀態、埠檢查、網路檢查、服務聯通性檢查、業務檢查、環境檢查、磁碟檢查、非容器化部署檢查、虛擬機檢查。如下表所示:

詳情請參見:維運監視指導手冊 第三章。

巡檢內容檢查項
系統檢查

僅匯出資訊,不進行配置推薦,檢查項包括:

工件系統資訊、glibc/gcc版本、hostname、時區資訊、CPU主頻、核心數、記憶體大小、已使用記憶體、閒置記憶體、交換分割槽、檢查時間、根目錄磁碟、根目錄磁碟剩餘

系統運作狀態
  • 插件資訊:插件名、插件版本、插件是否啟用

  • 註冊授權資訊:工程是否註冊

  • 容器版本

  • 工程下資料夾大小異常情況:WEB-INF下一層的每個資料夾大小

  • 臨時匯出目錄:目錄路徑、目錄剩餘可用空間

  • 工程啟動路徑:目錄路徑

  • WEB-INF下是否有web.xml

  • 工程jar包資訊:工程各個模組的版本和JAR包日期

埠檢查
  • 當機檢查埠:當機自動處理工具使用的埠

  • 叢集埠:叢集各節點埠

  • WebSocket 埠:WebSocket 主要用於重新整理 token、使用者被踢出、平台訊息、記憶體和 CPU 顯示、平台日誌處當前系統線上人數、資料連結編輯狀態的確定

網路檢查檢查檔案伺服器、外接資料庫、狀態伺服器和應用之間通訊是否正常,是否能夠ping通,是否存在丟包情況
服務聯通性檢查檢查工程與Redis組件、Sftp組件、FineDB資料庫之間是否聯通
業務檢查
  • finedb:檢查finedb資料庫的型別,建議配置外接資料庫

  • 外接庫的資料庫編碼/字元集:檢查finedb外接資料庫的資料庫編碼/字元集

  • 日誌級別:建議「管理系統>智慧維運>平台日誌>全局設定」中設定系統日誌級別為 ERROR

  • 日誌清理:建議「管理系統>智慧維運>平台日誌>全局設定」中自動清理超過三個月的日誌

  • 自動備份磁碟佔用限制:建議在「管理系統>智慧維運>備份還原>全局設定」中限制自動備份可佔用磁碟大小

  • 自動備份保留數量限制:建議「管理系統>智慧維運>備份還原>全局設定」中設定的自動備份保留數量不超過5份

  • 排程管理任務清理配置:建議排程管理任務>調度物件中,檔案處理方式設定為僅保留最近一次或任務結束即清理

  • 單範本儲存格數限制:建議開啓「管理系統>智慧維運>負載管理>範本限制>通用限制」中的單範本儲存格限制

  • 二級快取開啓情況:建議系統配置二級快取

  • 匯入excel儲存格數限制:建議開啓「管理系統>智慧維運>負載管理>範本限制>通用限制」中的匯入Excel儲存格限制

  • 負載預警開啓:建議開啓「管理系統>智慧維運>負載管理>負載監視」中的「智慧預警」

  • 單資料集行數限制:建議開啓「管理系統>智慧維運>負載管理>範本限制>通用限制」中的單資料集行數限制

  • sql執行時長限制:建議開啓「管理系統>智慧維運>負載管理>範本限制>通用限制」中的sql執行時長限制

  • 叢集參數配置:建議配置「管理系統>智慧維運>叢集配置>參數配置」中的內部轉發參數

  • 記憶體資料行數限制:建議「管理系統>系統管理>標準>BI參數」 中的「資料存取量」參數配置不超過100w

  • 快速分析儲存格數限制:建議DistributedOptimizationConfig.spiderConfig.spider_fast_compute_limit_unit參數值不超過10000000

  • 快速分析行數限制:建議DistributedOptimizationConfig.spiderConfig.spider_fast_compute_limit_row參數值不超過10000000

  • 快速分析更新儲存格數限制:建議DistributedOptimizationConfig.spiderConfig.spider_update_fast_compute_limit_cell參數值不超過10000

  • 快速分析記憶體大小限制:建議DistributedOptimizationConfig.spiderConfig.spider_fast_compute_limit_memory參數值不超過500000000

  • spark計算結果記憶體大小限制:建議DistributedOptimizationConfig.spiderConfig.spark_driver_maxResultSize參數值不超過10000000

  • 更新資源無限制時間段配置:檢查「管理系統>系統管理>標準>抽取參數」 中的「更新高效能時間區間」參數

環境檢查
  • vm.max_map_count:建議配置 vm.max_map_count 參數為 262144

  • 最大檔案開啟數:建議open_files參數配置不低於65536

  • overcommit_memory:建議vm.overcommit_memory參數配置為0

  • overcommit_ratio:建議vm.overcommit_ratio參數配置為50

  • gblic記憶體公佈相關配置:建議配置export MALLOC_ARENA_MAX=1

磁碟檢查

僅匯出資訊,不進行配置推薦,檢查項包括:

磁碟空間、已使用磁碟空間、閒置磁碟空間、順序讀取、順序寫、隨機讀、小檔案建立、小檔案刪除

非容器化部署

僅匯出資訊,不進行配置推薦,檢查項包括:

進程使用者、伺服器主要資料夾權限

虛擬機檢查
  • 物理記憶體:僅匯出資訊

  • 堆內記憶體:僅匯出資訊

  • 堆外fineIO讀記憶體:建議JVM fineIO讀記憶體使用堆外記憶體設定為2G

  • 堆外fineIO寫記憶體:建議JVM fineIO寫記憶體使用堆外記憶體設定為1G

  • headless模式:建議配置 -Djava.awt.headless=true 以啟用 headless 模式

  • dump匯出:建議配置HeapDumpOnOutOfMemoryError 及 HeapDumpPath以保證正常匯出dump

  • DisableExplicitGC參數:建議不對 DisableExplicitGC 參數進行配置,此項配置會導致 System.gc()被禁用,影響系統穩定性

  • JDK版本:建議使用「JDK8」中 1.8.0_181 及以上版本

  • 棧空間:建議單執行緒使用棧空間不超過1024KB,即 -Xss 的值不超過 1024

  • 垃圾回收器型別:建議 JVM 使用垃圾回收器型別為 ParallelScavenge

  • 老年代與新生代大小比例:建議堆內老年代與新生代大小比例為 2,即-XX:NewRatio=2

  • recompilationCutoff參數:建議recompilationCutoff相關參數配置值為-1

  • debug模式:建議取消debug模式,刪除兩個參數 -agentlib:jdwp 和 -Xrunjdwp

  • xms配置:建議配置Xms=Xmx

  • zip相關配置-Dsun.zip.disableMemoryMapping:建議配置-Dsun.zip.disableMemoryMapping=true

  • 語言配置-Duser.country:建議配置-Duser.country=CN

  • 語言配置-Duser.language:建議配置-Duser.language=zh

  • codecache配置:建議配置-XX:ReservedCodeCacheSize=250m

  • 安裝包部署:僅匯出資訊

  • 堆堆疊資訊:僅匯出資訊

檢查後存在問題的檢查項,會在頁面中展示,如下圖所示:

3. 一鍵配置

11.0.3 及之後版本,支援一鍵配置健康巡檢建議值。

3.1 不支援的環境

對於以下環境,不支援一鍵配置功能:

1)非 Tomcat 部署環境,不支援一鍵配置健康巡檢建議值,例如was部署、weblogic部署等。

2)FineReport 和FineBI 整合的環境,不支援一鍵配置健康巡檢建議值。

3)工程系統中若存在自行設定的 setenv 檔案,不支援一鍵配置健康巡檢建議值。

4)服務形式啟動的 Tomcat 工程,不支援一鍵配置健康巡檢建議值。

5)Windows環境下 exe 啟動的 Tomcat 工程,不支援一鍵配置健康巡檢建議值。

6)設計器環境下的 FineReport 工程,不支援一鍵配置健康巡檢建議值。

7)系統物理記憶體為 16 GB及以下的環境,不支援一鍵配置健康巡檢建議值。

8)叢集工程環境,不支援一鍵配置健康巡檢建議值。

3.2 配置方法

若當前工程環境滿足一鍵配置的要求,且存在需要一鍵配置的檢查項,在「健康巡檢」頁面左上角出現按鈕「查看建議配置」。

點選「查看建議配置」,即可勾選需要配置的檢查項,點選「應用配置」,即可一鍵配置異常項的值。配置成功後,跳出提示「應用配置成功,重啓伺服器後生效」。

報表工程重啓後,可以發現剛剛的異常項均已成功配置。

注1:支援一鍵配置的檢查項為:堆內記憶體、堆外NIO記憶體、堆外FineIO記憶體、垃圾回收器型別、老年代與新生代比例、棧空間。

注2:若沒有檔案讀寫權限或者無法修改配置檔案時,提示「應用配置失敗:沒有配置檔案讀寫權限」,點選「確定」,則修改失敗,傳回健康巡檢介面。

4. 巡檢報表

每一次健康巡檢結束後,會生成一個巡檢報表。使用者可將報表下載到本地,或線上預覽。如下圖所示:

報表內容包括上述所有檢查項。報表範例如下圖所示:

5. 觸發檢查

5.1 手動檢查

系統重啓後,每小時獲取一次系統的配置情況。

第一次進行健康巡檢時,需要點選「開始巡檢」按鈕,系統自動進行檢查,獲取最近一次的系統配置,更新檢查結果。

再次進行進行健康巡檢時,點選「重新診斷」按鈕,系統自動進行檢查,獲取最近一次的系統配置,更新檢查結果。

5.2 自動檢查

在「健康巡檢處理」頁面,管理者可開啓「系統自動檢查」並儲存。

開啓後,系統在每週日上午 11 點進行自動檢查,存在不合理配置時可透過簡訊提醒、平台訊息、郵件提醒三種形式通知管理者。

注:

1)簡訊提醒:需要開啓簡訊平台,詳細點選 簡訊

2)郵件提醒:需要配置郵件伺服器,詳細點選 郵箱

3)平台訊息:需要在負載均衡層面配置websocket埠並且開放,相關文檔:Websocket埠被佔用/無法使用

6. 維運工具

維運API金鑰,是在「維運平台」中綁定當前工程的API金鑰,詳情請參見:維運平台產品簡介

7. 注意事項

7.1 快速修復異常

問題描述:

使用健康巡檢的「快速修復」功能,修改了tomcat記憶體後,使用./startup.sh命令啟動工程,tomcat 閃退,並且無 tomcat 進程出現。

原因分析:

系統記憶體不足。

解決方案:

刪除%TOMCAT_HOME%/bin下的setenv.sh檔案,該檔案為快速修復時生成的配置檔案。

7.2 This combination of host and port requires TLS

問題描述:

健康巡檢全部失敗。

觸發巡檢並開啟日誌info級別,出現報錯:This combination of host and port requires TLS

原因分析:

埠沒有配置好https

解決方案:

finedb的 fine_conf_entity 表中,需要新增一個欄位ClusterNodeConfig.useHttps,欄位值為true

新增方法請參見:填報修改fine_conf_entity

附件列表


主題: 決策平台
  • 有幫助
  • 沒幫助
  • 只是瀏覽
  • 圖片不清晰
  • 用語看不懂
  • 功能說明看不懂
  • 操作說明太簡單
  • 內容有錯誤
中文(繁體)

文 檔回 饋

滑鼠選中內容,快速回饋問題

滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。

不再提示

10s後關閉