一種診斷RACK機櫃內單節點掉電原因的方法與流程
2023-05-20 18:53:46 3
技術領域
本發明涉及計算機技術領域,具體地說是一種實用性強、診斷RACK機櫃內單節點掉電原因的方法。
背景技術:
隨著科學技術的不斷發展,大數據存儲與處理已不斷深入到社會的各個領域中,隨之帶來的伺服器的地位不斷提升,伺服器的性能成為業界工程師不斷提升與改善的重要課題。
在現有Rack伺服器架構中,經常存在讓工程師一直頭痛的問題:
Rack伺服器機櫃內單個節點或多個節點掉電的問題。由於此問題通常是概率性的發生,工程師往往花費大量的時間和精力也無法得知準確的原因,同時無法及時的提出解決方案。當伺服器節點掉電後,通常會造成重要數據的丟失,為使用者帶來較大的麻煩。
為此,本發明提出一種診斷Rack機櫃內單節點掉電原因的設計方法。
技術實現要素:
本發明的技術任務是針對以上不足之處,提供一種實用性強、診斷RACK機櫃內單節點掉電原因的方法。
一種診斷RACK機櫃內單節點掉電原因的方法,包括內置若干節點的Rack機櫃,其實現過程為:
在每個節點的前端均安裝帶有PMBUS數據溝通功能的熱插拔晶片,並將該熱插拔晶片連接到主板上;
將該熱插拔晶片連接顯示計算機,該顯示計算機內安裝GUI軟體;
當節點掉電時,在裝有GUI軟體的顯示計算機上讀取異常原因,針對該異常原因作出針對性對策。
所述熱插拔晶片通過BMBUS總線連接到主板上,相對應的,在主板上安裝設置可供PMBUS連接的插針,並將PMBUS的IO接口放置於節點的前窗上。
所述熱插拔晶片通過治具連接器連接到顯示計算機,該治具連接器分別連接USB轉接線和IO埠,分別用於連接顯示計算機和熱插拔晶片,即治具連接器的IO埠連接在節點前窗的PMBUS IO接口上,USB轉接線接在裝有GUI軟體的顯示計算機上。
上述熱插拔晶片中存在寄存器,用於將獲取到的掉電原因記錄其中,在機櫃銅排不掉電的情況下,寄存器中的數據將一直保存,直至使用者將掉電原因讀取後,將寄存器手動重置。
本發明的一種診斷RACK機櫃內單節點掉電原因的方法,具有以下優點:
本發明的一種診斷RACK機櫃內單節點掉電原因的方法,通過利用內部帶有寄存器的熱插拔晶片,將掉電原因及時記錄在晶片內的寄存器中,同時通過熱插拔晶片的PMBUS走線,將PMBUS的IO接口放置於節點前窗上,使用者通過晶片配套的治具連接器和GUI軟體,及時獲取節點掉電原因,並根據掉電原因及時的提出解決方案,避免重大損失的產生,實用性強,易於推廣。
附圖說明
附圖1為治具連接器結構示意圖。
具體實施方式
下面結合附圖及具體實施例對本發明作進一步說明。
本發明提出一種診斷Rack機櫃內單節點掉電原因的設計方法,解決Rack機櫃內發生單節點或多節點掉電時無法獲悉掉電原因的問題,通過此設計方法,可監控到節點掉電原因,並根據原因提出對應性的解決方法,避免同樣問題的發生,避免因數據丟失對用戶造成的重大損失。
本發明提出一種診斷Rack機櫃內單節點掉電原因的設計方法,該方法主要的實現方式是將節點最前端原有的熱插拔晶片更換為帶有PMBUS數據溝通功能的熱插拔晶片,本文將以ADM1278為例進行介紹,並將此熱插拔晶片的PMBUS走線拉至主板上,在主板的前窗上增加可供PMBUS連接的插針;當節點因異常原因掉電時,利用與熱插拔晶片配套的治具連接器和GUI軟體,在裝有GUI軟體的電腦上讀取異常原因,並針對異常原因作出針對性對策。該方法通過硬體線路和軟體控制共同達成,實施方法簡單明了,易於掌握,能夠直接監測到掉電原因。
設計Rack節點前端電源板時採用的熱插拔晶片為ADM1278,將ADM1278晶片的PMBUS走線通過線纜拉至主板上,並將PMBUS的IO接口放置於節點的前窗上。
準備ADM1278配套的治具連接器,如圖1所示。
當節點發生掉電後將ADM1278配套的治具連接器的IO埠接在節點前窗的PMBUS IO接口上,將USB轉接線接在裝有GUI軟體的電腦上。打開GUI軟體,其中:顯示的所有項目,指示燈為紅色的即為節點掉電原因。
通過上述步驟,本發明的方法可實現以下功能:
該方案可準確的獲取節點掉電的原因,解決以往節點掉電後無法獲悉掉電原因的問題,使用者可根據獲取的掉電原因有針對性的提出解決方案,避免問題重複發生;
該方案通過更改節點最前端熱插拔晶片方案、配合晶片配套治具連接器和GUI軟體來實現掉電原因的監控,無需增加其他ROM和超級電容等複雜線路設計,實施方案簡便明了,易於掌握;
該方案將熱插拔晶片PMBUS的IO接口放置在節點的前窗上,節點發生掉電後,無需將節點從機櫃拔出,可直接將晶片配套的治具連接器接於節點前窗上的IO接口上,實現掉電原因的監控;
該方案所使用的熱插拔晶片中存在寄存器,可將獲取到的掉電原因記錄其中。在機櫃銅排不掉電的情況下,寄存器中的數據將不會丟失,一直保存,直至使用者將掉電原因讀取後,將寄存器手動重置;
該方案最終獲取的節點掉電原因將直接顯示在熱插拔晶片GUI軟體的界面中,可視性極強,無需人為進行數據分析,掉電原因將直接顯示在裝有GUI軟體的電腦顯示器上。
上述具體實施方式僅是本發明的具體個案,本發明的專利保護範圍包括但不限於上述具體實施方式,任何符合本發明的一種診斷RACK機櫃內單節點掉電原因的方法的權利要求書的且任何所述技術領域的普通技術人員對其所做的適當變化或替換,皆應落入本發明的專利保護範圍。