一種基於內存錯誤的伺服器預警方法
2023-07-22 16:31:31 2
專利名稱:一種基於內存錯誤的伺服器預警方法
技術領域:
本發明涉及大型伺服器管理技術領域,具體地說是一種基於內存錯誤的伺服器預警方法。
背景技術:
I、當前的伺服器監控系統主要通過帶外監控來監控系統的溫度,電壓和風扇轉速等信息控制系統外部環境的穩定。這些帶外的方法無法覆蓋內存系統內存發生錯誤,尤其是當今伺服器集群系統內存條動則成百上千,一旦出問題很難定位;
2、當前的監控系統主要是基於時間的輪詢機制,這種機制雖然在一定程度上較為高效,但是如果系統不穩定發生的時間點正好在兩次輪詢中間,那麼監控系統就無法獲取這個錯誤,在一定程度上漏掉了這個錯誤,可能導致非常嚴重的後果。
發明內容
本發明的目的是提供一種基於內存錯誤的伺服器預警方法。本發明的目的是按以下方式實現的,包括以下步驟
(1)檢查BIOS的設置是否開啟了內存預警;
(2)如果開啟了內存預警則轉步驟3),否則返回;
(3)在伺服器初始化階段設置CPU中斷,當其檢測到內存錯誤的時候發出SMI中斷;
(4)當CPU檢測到ECC校驗錯誤時發出SMI中斷;
(5)BIOS的SMI Handler檢測BIOS的設置是否開啟了 RAS,如果開啟RAS則轉步驟
6),否則轉步驟8 ;
(6)檢測內存錯誤數是否達到了啟動RAS特性的臨界值,若使是,轉步驟7),否則轉步驟8);
(7)根據RAS設置包括內存熱備,內存鏡像,內存雙顆粒數據校正,來採取對應的措施,並且通過IPMI命令將對應的事件發送給BMC ;
(8)將發生錯誤的內存條的信息以及當前其總計發生的錯誤數目發送到BMC;
(9)BMC將BIOS發送的信息以易讀的方式實時解析到界面,並且實時的以Mail的方式發送給系統管理員,方便下次停機維護的時候對對應發生錯誤的內存進行處置。實時SMI中斷來處理內存錯誤,不需要作業系統有任何參與,在系統沒有發生內存錯誤時候不會有任何額外開銷,高效監控。基於系統運行時內存的穩定預警,區別於傳統的只能監控溫度,電壓等因素的預警,是一種更深層次的預警機制。本發明的有益效果如下
I)通過系統中斷的方式處理錯誤,在BIOS級別做全部處理,不需要作業系統的參與,更加實時高效;精確定位內存出錯位置,而且不會漏掉任何一個發生的錯誤,更加安全;在系統發生內存錯誤時利用RAS特性做系統內存低層次的恢復,從而保證了系統的穩定運行,在大型企業級伺服器集群上更為重要;
2)在系統內存初始化時根據BIOS的設置選項選擇CPU在檢查到內存ECC校驗錯誤時候是否發出SMI中斷;
3)在系統運行的過程中,若CPU檢查到內存ECC校驗錯誤,則通過中斷發送出來;
4)BI0S在收到中斷後通過判斷錯誤的級別是否需要採取進一步的RAS恢復,以及將錯誤恢復結果和具體錯誤內存條信息發送到BMC ;
5)BMC來解析錯誤具體信息並且將其發送到管理員郵箱,由系統管理員決定。
圖I是系統部署流程圖。
具體實施例方式參照說明書附圖對本發明的方法作以下詳細地說明。BIOS將預警功能在Setup界面上做給用戶做出選擇。具體實現流程
(1)如果開啟了內存預警則轉3,否則返回;
(2)在伺服器的內存初始化階段設置CPU對應寄存器,當其檢測到內存錯誤的時候發出SMI中斷;
(3)在SMI的Handler裡面註冊對應此功能的調用函數,在入口處判斷是否是自己需要處理的事件;
(4)當CPU檢測到ECC校驗錯誤時發出SMI中斷時。SMIHandler需要做得事情包括
①檢測BIOS的設置是否開啟了RAS,如果開啟RAS則轉②否則轉④;
②檢測內存錯誤數是否達到了啟動RAS特性的臨界值,若使是,轉③,否則轉④;
③根據RAS設置(內存熱備,內存鏡像,內存雙顆粒數據校正)來採取對應的措施,並且通過IPMI命令將對應的事件發送給BMC ;
④將發生錯誤的內存條的信息以及當前其總計發生的錯誤數目發送到BMC。BMC將BIOS發送的信息以易讀的方式實時解析到界面,並且實時的以Mail的方式發送給系統管理員,方便下次停機維護的時候對對應發生錯誤的內存
除說明書所述的技術特徵外,均為本專業技術人員的已知技術。
權利要求
1.一種基於內存錯誤的伺服器預警方法,其特徵在於包括以下步驟 (1)檢查BIOS的設置是否開啟了內存預警; (2)如果開啟了內存預警則轉步驟(3),否則返回; (3)在伺服器初始化階段設置CPU中斷,當其檢測到內存錯誤的時候發出SMI中斷; (4)當CPU檢測到ECC校驗錯誤時發出SMI中斷; (5)BI0S的SMIHandler檢測BIOS的設置是否開啟了 RAS,如果開啟RAS則轉步驟(6),否則轉步驟8 ; (6)檢測內存錯誤數是否達到了啟動RAS特性的臨界值,若使是,轉步驟(7),否則轉步驟(8); (7)根據RAS設置包括內存熱備,內存鏡像,內存雙顆粒數據校正,來採取對應的措施,並且通過IPMI命令將對應的事件發送給BMC ; (8)將發生錯誤的內存條的信息以及當前其總計發生的錯誤數目發送到BMC; (9)BMC將BIOS發送的信息以易讀的方式實時解析到界面,並且實時的以Mail的方式發送給系統管理員,方便下次停機維護的時候對對應發生錯誤的內存進行處置。
2.根據權利要求I所述的伺服器預警方法,其特徵在於實時SMI中斷來處理內存錯誤,不需要作業系統有任何參與,在系統沒有發生內存錯誤時候不會有任何額外開銷,高效監控。
3.根據權利要求I所述的伺服器預警方法,其特徵在於基於系統運行時內存的穩定預警,區別於傳統的只能監控溫度,電壓等因素的預警,是一種更深層次的預警機制。
全文摘要
本發明提供一種基於內存錯誤的伺服器預警方法,1)通過系統中斷的方式處理錯誤,在BIOS級別做全部處理,不需要作業系統的參與,精確定位內存出錯位置,在系統發生內存錯誤時利用RAS特性做系統內存低層次的恢復,從而保證了系統的穩定運行,在大型企業級伺服器集群上更為重要。2)在系統內存初始化時根據BIOS的設置選項選擇CPU在檢查到內存ECC校驗錯誤時候是否發出SMI中斷。3)在系統運行的過程中,若CPU檢查到內存ECC校驗錯誤,則通過中斷發送出來。4)BIOS在收到中斷後通過判斷錯誤的級別是否需要採取進一步的RAS恢復,以及將錯誤恢復結果和具體錯誤內存條信息發送到BMC。5)BMC來解析錯誤具體信息並且將其發送到管理員郵箱,由系統管理員決定。
文檔編號G06F11/10GK102681909SQ20121012896
公開日2012年9月19日 申請日期2012年4月28日 優先權日2012年4月28日
發明者曹光耀 申請人:浪潮電子信息產業股份有限公司