新增部分健康巡檢內容
支援生成並下載巡檢報表
如果記憶體環境配置不合理,非常容易導致資料平台當機,且此類當機情況很難復現,排查困難。
FineDataLink 資料平台內建了系統維運插件,直接擁有此功能。
「健康巡檢」,可幫助使用者檢查系統中的各項配置是否合理,以輔助使用者優化環境配置,更好地防止當機情況的發生。
使用者手動檢查/平台定期檢查資料平台各項環境配置是否合理;
當系統環境配置不合理時,推播訊息給使用者;
為使用者提供系統環境配置的合理改進指導;
本文將簡單介紹健康巡檢功能的檢查邏輯和檢查項。
V1.3.1 之前版本的插件,僅支援環境配置檢查。
V1.3.1 及之後版本的插件,支援進行的巡檢內容,包括系統檢查、系統運作狀態、埠檢查、網路檢查、服務聯通性檢查、業務檢查、環境檢查、磁碟檢查、非容器化部署檢查、虛擬機檢查。如下表所示:
詳情請參見:維運監視指導手冊 第三章。
僅匯出資訊,不進行配置推薦,檢查項包括:
作業系統資訊、時區資訊、glibc/gcc版本、hostname、host檔案資訊、CPU主頻、、核心數、記憶體大小、虛擬記憶體、已使用記憶體、閒置記憶體等
插件資訊:插件名、插件版本、插件是否啟動
註冊授權資訊:工程是否註冊、認證方式
容器版本
工程下資料夾大小異常情況:WEB-INF 下一層的每個資料夾大小
臨時匯出目錄:目錄路徑、目錄剩餘可用空間
工程啟動路徑:目錄路徑
WEB-INF 下是否有 web.xml
工程 jar 包資訊:工程各個模組的版本和JAR包日期
當機檢查:當機自動處理工具使用的埠
叢集埠:叢集各節點埠
WebSocket 埠:WebSocket 主要用於重新整理 token、使用者被踢出、平台訊息、記憶體和 CPU 顯示、平台日誌處當前系統線上人數、資料連結編輯狀態的確定
finedb:檢查finedb資料庫的類型,建議配置外接資料庫
外接庫的資料庫編碼/字元集:檢查finedb外接資料庫的資料庫編碼/字元集
日誌級別:建議「管理系統>智慧維運>平台日誌>全局設定」中設定系統日誌級別為 ERROR
日誌清理:建議「管理系統>智慧維運>平台日誌>全局設定」中自動清理超過三個月的日誌
自動備份磁碟佔用限制:建議在「管理系統>智慧維運>備份還原>全局設定」中限制自動備份可佔用磁碟大小
自動備份保留數量限制:建議「管理系統>智慧維運>備份還原>全局設定」中設定的自動備份保留數量不超過 5 份
負載預警開啟:建議開啟「管理系統>智慧維運>負載管理>負載監視」中的「智慧預警」
叢集參數配置:建議配置「管理系統>智慧維運>叢集配置>參數配置」中的內部轉發參數
是否開啟雲端健檢分析
密碼強度限制檢查:建議在「管理系統>系統管理>登入」中開啟密碼強度限制
vm.max_map_count:建議配置 vm.max_map_count 參數為 262144
最大檔案開啟數:建議open_files參數配置不低於65536
overcommit_memory:建議vm.overcommit_memory參數配置為0
overcommit_ratio:建議vm.overcommit_ratio參數配置為50
gblic記憶體公佈相關配置:建議配置export MALLOC_ARENA_MAX=1
磁碟空間、已使用磁碟空間、閒置磁碟空間、順序讀取、順序寫、隨機讀、小檔案建立、小檔案刪除
進程使用者、伺服器主要資料夾權限
物理記憶體:僅匯出資訊
堆內記憶體:僅匯出資訊
堆外fineIO讀記憶體:建議JVM fineIO讀記憶體使用堆外記憶體設定為2G
堆外fineIO寫記憶體:建議JVM fineIO寫記憶體使用堆外記憶體設定為1G
headless模式:建議配置 -Djava.awt.headless=true 以啟動 headless 模式
dump匯出:建議配置HeapDumpOnOutOfMemoryError 及 HeapDumpPath以保證正常匯出dump
DisableExplicitGC參數:建議不對 DisableExplicitGC 參數進行配置,此項配置會導致 System.gc()被禁用,影響系統穩定性
JDK版本:建議使用「JDK8」中 1.8.0_181 及以上版本
棧空間:建議單執行緒使用棧空間不超過1024KB,即 -Xss 的值不超過 1024
垃圾回收器類型:建議 JVM 使用垃圾回收器類型為 ParallelScavenge
老年代與新生代大小比例:建議堆內老年代與新生代大小比例為 2,即-XX:NewRatio=2
recompilationCutoff參數:建議recompilationCutoff相關參數配置值為-1
debug模式:建議取消debug模式,刪除兩個參數 -agentlib:jdwp 和 -Xrunjdwp
xms配置:建議配置Xms=Xmx
zip相關配置-Dsun.zip.disableMemoryMapping:建議配置-Dsun.zip.disableMemoryMapping=true
語言配置-Duser.country:建議配置-Duser.country=CN
語言配置-Duser.language:建議配置-Duser.language=zh
codecache配置:建議配置-XX:ReservedCodeCacheSize=250m
安裝包部署:僅匯出資訊
堆疊資訊:僅匯出資訊
檢查後存在問題的檢查項,會在頁面中展示,如下圖所示:
快速修復功能支援一鍵配置系統檢查建議值。
對於以下環境,不支援快速修復功能:
1)非 Tomcat 部署環境,不支援快速修復,例如 was 部署、weblogic 部署等。
2)工程系統中若存在自行設定的 setenv 檔案,不支援快速修復。
3)服務形式啟動的 Tomcat 工程,不支援快速修復。
4)Windows環境下 exe 啟動的 Tomcat 工程,不支援快速修復。
5)系統物理記憶體為 16 GB及以下的環境,不支援快速修復。
6)叢集工程環境,不支援快速修復。
若當前工程環境滿足快速修復的要求,且存在需要一鍵配置的檢查項,在「系統檢查」頁面左上角出現按鈕「快速修復」。
點選「快速修復」,即可勾選需要配置的檢查項,點選「應用配置」,即可一鍵配置異常項的值,如下圖所示:
注1:支援快速修復的檢查項為:堆內記憶體、堆外NIO記憶體、堆外FineIO記憶體、DisableExplicitGC參數、老年代與新生代比例、棧空間、xms配置。
注2:若沒有檔案讀寫權限或者無法修改配置檔案時,提示「應用配置失敗:沒有配置檔案讀寫權限」,點選「確定」,則修改失敗,傳回系統檢查介面。
配置成功後,跳出提示「應用配置成功,重啟伺服器後生效」。重啟伺服器後,可以發現剛剛的異常項均已成功配置。
每一次健康巡檢結束後,會生成一個巡檢報表。使用者可將報表下載到本地,或線上預覽。如下圖所示:
健康巡檢報表支援查看異常檢查項或全部檢查項,報表範例如下圖所示:
系統重啟後,每小時獲取一次系統的配置情況。
第一次進行健康巡檢時,需要點選「開始巡檢」按鈕,系統自動進行檢查,獲取最近一次的系統配置,更新檢查結果。
再次進行進行健康巡檢時,點選「重新診斷」按鈕,系統自動進行檢查,獲取最近一次的系統配置,更新檢查結果。
在「健康巡檢處理」頁面,管理者可開啟「系統自動檢查」並儲存。
開啟後,系統在每週日上午 11 點進行自動檢查,存在不合理配置時可透過簡訊提醒、平台訊息、郵件提醒三種形式通知管理者。
注:
1)簡訊提醒:需要開啟簡訊平台,詳細點選 簡訊
2)郵件提醒:需要配置郵件伺服器,詳細點選 郵箱
3)平台訊息:需要在負載均衡層面配置websocket埠並且開放,相關文檔:Websocket埠被佔用/無法使用
維運API金鑰,是在「維運平台」中綁定當前工程的API金鑰,詳情請參見:維運平台產品簡介
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
反馈已提交
网络繁忙