新四季網

用於部署計算基礎設施的方法和數據存儲設備的製作方法

2023-06-19 20:27:31

專利名稱:用於部署計算基礎設施的方法和數據存儲設備的製作方法
技術領域:
本發明一般涉及計算機系統中的數據存儲領域,尤其涉及用於處理硬體錯誤同時避免系統崩潰的技術。
背景技術:
硬體錯誤例如在計算系統(例如,標準的UNIX系統)中的機器檢查將引起系統崩潰。一般地說,其甚至不允許應用程式具有記錄任何信息的機會。當信息可被記錄時,其僅僅用於在重新啟動映像之後識別故障組件。機器檢查一直被認為是系統的致命錯誤。在數據存儲設備(其一個例子是IBM pSeries系統)中有可以引起機器檢查的許多狀態,例如目標異常中斷、主(master)異常中斷或奇偶錯誤。在通用UNIX伺服器中,為這些狀態調用機器檢查是合理的。在這種情況下,數據存儲設備暫時成為是不可用的。
此外,多群集數據存儲設備,其中的一個例子是IBM TotalStorage ESS存儲伺服器,是一個具有其自身的主機適配器和設備適配器以及相應的設備驅動器的封閉環境。如果這些硬體適配器的任何一個引起外圍組件互連(PCI)錯誤例如目標異常中斷,則整個群集或計算機-電子設備複合體(CEC)將發生崩潰而被重新啟動。在這期間,數據存儲設備運行在單群集模式下。然而這是不希望的,因為數據存儲設備的功能和性能受到了削弱。
因而,需要提供一種過程,用於以允許計算系統繼續運行的方式處理計算系統中的硬體錯誤而不引起系統崩潰。

發明內容
為了解決這些和其它問題,本發明描述一種用於處理計算系統例如數據存儲設備中的硬體錯誤的過程。本發明為應用定義了一種新的接口,用於通知計算系統的作業系統正確地處理了(例如,通過重置或隔開適配器)機器檢查(例如,由PCI錯誤引起的),從而作業系統旁路掉由於機器檢查引起的系統崩潰。
在一個方面中,本發明提供一種用於部署計算基礎設施的方法,包括在具有多個硬體適配器的計算系統中集成計算機可讀代碼,其中和計算系統相結合的代碼能夠通過執行一種方法處理所述硬體適配器的硬體錯誤。所述方法包括(a)在和計算系統的作業系統的接口處檢查計算系統中的硬體錯誤,(b)響應所述檢查,確定可能發生該硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器,以及(c)在所述隔離之後,完成該硬體錯誤的處理而不導致計算系統的崩潰。
在另一方面中,一種數據存儲設備包括用於記錄由多個硬體適配器產生的錯誤的錯誤寄存器,以及至少一個群集,其包括至少一個處理器,所述處理器用於執行計算機可讀代碼,從而提供一個作業系統以及與所述作業系統的接口。所述接口檢測計算系統中的硬體錯誤,檢查錯誤寄存器以便確定可能產生所述硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器。在所述隔離之後,作業系統完成硬體錯誤的處理而不引起數據存儲設備的崩潰。
還可以提供相關的程序存儲設備。


通過參看下面的正文和附圖可以更加清楚地看出本發明的這些和其它特徵、利益和優點,在所有附圖中相同的標號表示相同的結構,其中圖1表示按照本發明的計算系統;以及圖2表示按照本發明用於處理硬體錯誤的處理。
具體實施例方式
圖1表示按照本發明的計算系統。計算系統100可以是數據存儲設備,例如,其用於備份來自多個伺服器主機的客戶數據。計算系統100包括輸入/輸出(I/O)子系統或構造設備120,所述子系統或構造設備120包括多個硬體適配器122,124和126,它們通過總線128例如PCI總線進行通信。硬體適配器122,124和126可以在群集150和任何數量的硬體組件之間提供連接性,群集150也被稱為計算機-電子設備複合體(CEC)。一般地說,CEC是一種硬體,其可以運行多個映像/分區/虛擬伺服器。例如,設備適配器可以連接數據存儲設備所使用的存儲盤以便備份數據。主機適配器是外部接口,用於向外部主機或者附加的遠程數據存儲設備發送數據或從其接收數據。例如,主機適配器可以支持兩個埠,例如小計算機系統接口(SCSI)或IBM企業系統連接(ESCON),其是一種Enterprise SystemArchitecture/390和zSeries計算機外圍接口。也可以使用光纖通道或具有每個主機適配器一個通道的支持的光纖通道連接(FICON)。也可以使用硬體適配器連接其它設備,例如本地主機工作站、內部風扇等。對於雙或其它多群集數據存儲設備,每個設備適配器和主機適配器可以和用於故障保險操作的每個群集相連。
總線128和群集150通信。注意,所示的布置是一個簡化的例子。實際上,可以具有更多的適配器以及其它組件。群集150包括處理器152,其執行指令,例如存儲在至少一個程序存儲設備例如存儲器158中的軟體、固件和/或微代碼,以便提供這裡所述的功能。具體地說,作業系統156、接口154和設備驅動器153被描述為在處理器152上運行。設備驅動器器的一個例子是IBM ESS驅動器。對於多群集數據存儲設備,可以為每個群集重複用於群集150的布置。
客戶數據可通過適配器122,124和126以及總線128被提供給群集150。此外,每個適配器122,124和126具有產生錯誤消息的能力,該錯誤消息被記錄在錯誤寄存器160中。所述的錯誤寄存器160被示出為提供在I/O構造設備120中,例如作為總線128的一個外圍組件,但是可替換地也可以位於(例如)群集150中。當使用多個總線時,可以為每個總線提供不同的錯誤寄存器。具體地說,所述錯誤可以是硬體錯誤,例如表示適配器不能正確地工作的機器檢查錯誤。一般地說,每個適配器包括可以檢測錯誤的驅動器。錯誤寄存器160可以包括運行在專用集成電路(ASIC)晶片中的檢查器,用於例如尋找對PCI協議的違反並鎖存任何錯誤。
按照本發明,作業系統156的接口154可作為應用/設備驅動器153的一部分被提供以便處理PCI和其它的硬體錯誤。具體地說,例如,作為錯誤處理器的接口154可以作為設備驅動器153的內核擴展被提供。當由於PCI錯誤例如目標異常中斷而發生機器檢查時,接口154可以檢查錯誤寄存器160以確定適配器122,124,126中的哪一個可能導致了該PCI錯誤。由在錯誤寄存器160處記錄的信息確定錯誤的原因。記錄的特定信息與實現相關。注意以前可能不能精確地識別錯誤的來源。例如,在I/O構造設備中的錯誤,例如數據奇偶錯誤,可能是由適配器引起的,或是由構造設備本身引起的。設備驅動器153處的接口154,其了解拓撲結構,可以調用熱啟動並隔離可能引起了該錯誤的適配器。
對於多群集設備,每個群集的設備驅動器協調地工作以發起一個熱啟動。熱啟動包括運行恢復程序以便重新啟動處理器上的軟體,例如設備驅動器153。可以通過使得可能引起錯誤的適配器發生重置或隔開例如通電重置或重新初始化實現隔離。隔離可以和熱啟動同時進行。一旦應用設備驅動器返回,例如完成了熱啟動並且錯誤已被隔離,作業系統156將完成其餘的機器檢查處理而不引起系統崩潰。即,作業系統156從中斷級返回正常操作。
因而本發明有利地減少了系統崩潰的發生,並且改善了整個系統的可靠性。
圖2表示按照本發明用於處理硬體錯誤的處理。在塊200,在作業系統156上註冊接口或錯誤處理器160。來自I/O構造設備120的錯誤可由接口154檢測。在塊210,如果已經產生硬體錯誤,則該錯誤被記錄在錯誤寄存器160中。如果沒有硬體錯誤產生,則處理繼續進行(塊220),直到錯誤產生為止。在塊230,當檢查到錯誤時,接口154檢查錯誤寄存器160以確定該錯誤的來源,例如可能產生該錯誤的一個或多個硬體適配器。在塊240,接口隔離該錯誤的來源,例如可能產生該硬體錯誤的一個或多個硬體適配器,並且設備驅動器153調用熱啟動。
在塊250,接口通知作業系統錯誤已經隔離。注意接口不必提供用於確定性地確定錯誤來源所需的全部信息。在熱啟動處理中使用其它方法。在IBM ESS中,這些是AIX pSeries增強錯誤處理體系結構的一部分。通知可以包括錯誤範圍(相對於適配器該錯誤離CEC的遠近程度),錯誤的位置(描述錯誤在邏輯拓撲中處於何處的句柄),以及一些特定於實現的錯誤信息。在塊260,作業系統響應該通知完成硬體錯誤的處理而不引起系統崩潰。
因而,所述接口或錯誤處理器是註冊的接口,例如,一段代碼,當有問題時,例如,所支持的適配器的PCI總線插槽的問題,作業系統(OS)在設備驅動器上訪問該代碼。設備驅動器在OS上註冊該接口或錯誤處理器,使得當硬體中斷在問題表面(question surface)中與該適配器相關時,OS必須調用該接口。當PCI適配器所在的PCI總線發生錯誤時,設備驅動器錯誤處理器詢問錯誤寄存器以便幫助確定總線上的錯誤的性質以及如何從該錯誤最好地恢復。
注意通過把計算機可讀代碼集成在計算系統中,此處說明的本發明可被部署在現有的或新的計算基礎設施上,例如數據存儲設備、群集或客戶機計算系統上,與計算系統相結合的代碼能夠執行用於實現此處所述的功能的方法。
因而,可以看出,本發明提供了一種用於處理計算系統中的硬體錯誤同時避免系統崩潰的技術。提供了與計算系統的作業系統的接口以便通過隔離處理硬體錯誤,例如使出錯的適配器和計算系統隔開。然後接口可以通知作業系統錯誤已被處理,從而使作業系統旁路否則將發生的系統崩潰。
已經參照特定的示例實施例說明了本發明。在不脫離本發明的範圍的情況下,某些替換和改型對於本領域技術人員可以是明顯的。這些示例實施例只用於說明本發明,而不是限制本發明的範圍,本發明的範圍由所附權利要求限定。
權利要求
1.一種用於部署計算基礎設施的方法,包括在具有多個硬體適配器的計算系統中集成計算機可讀代碼,其中和所述計算系統相結合的代碼能夠通過執行一種方法來處理所述硬體適配器的硬體錯誤,所述方法包括在與所述計算系統的作業系統的接口處檢測所述計算系統中的硬體錯誤;響應所述檢測,確定可能產生所述硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器,以及在所述隔離之後,完成所述硬體錯誤的處理而不引起所述計算系統的崩潰。
2.如權利要求1所述的方法,其中所述隔離包括重置所述至少一個硬體適配器。
3.如權利要求1所述的方法,其中所述隔離包括隔開所述至少一個硬體適配器。
4.如權利要求1所述的方法,其中由所述接口執行所述隔離;以及由所述作業系統執行所述完成硬體錯誤的處理。
5.如權利要求1所述的方法,還包括從所述接口向所述作業系統提供通知,指出所述至少一個硬體適配器已被隔離;其中所述作業系統響應所述通知執行所述完成硬體錯誤的處理。
6.如權利要求1所述的方法,其中所述接口包括與所述作業系統相關聯的設備驅動器的內核擴展。
7.如權利要求1所述的方法,還包括響應對硬體錯誤的檢測,調用與所述作業系統相關聯的設備驅動器的熱啟動。
8.如權利要求1所述的方法,其中所述硬體錯誤包括機器檢查錯誤。
9.如權利要求1所述的方法,其中所述硬體錯誤包括輸入/輸出構造設備錯誤。
10.如權利要求1所述的方法,其中所述計算系統包括數據存儲設備。
11.如權利要求1所述的方法,還包括向所述作業系統註冊所述接口。
12.如權利要求1所述的方法,其中所述確定可能產生所述硬體錯誤的至少一個硬體適配器包括檢查錯誤寄存器。
13.至少一個程序存儲設備,其有形地包含可由至少一個處理器執行的指令程序,以便執行用於處理具有多個硬體適配器的計算系統中的硬體錯誤的方法,所述方法包括在與所述計算系統的作業系統的接口處檢測所述計算系統中的硬體錯誤;響應所述檢測,確定可能產生所述硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器,以及在所述隔離之後,完成所述硬體錯誤的處理而不引起所述計算系統的崩潰。
14.一種用於部署計算基礎設施的方法,包括在具有多個硬體適配器的計算系統中集成計算機可讀代碼,其中與所述計算系統相結合的代碼能夠通過執行一種方法來處理所述硬體適配器的硬體錯誤,所述方法包括向所述計算系統的作業系統註冊接口;在所述接口檢測所述計算系統中的硬體錯誤;響應所述檢測,確定可能產生所述硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器,以及在所述隔離之後,完成所述硬體錯誤的處理而不引起所述計算系統的崩潰。
15.如權利要求14所述的方法,其中由所述接口執行所述隔離;以及由所述作業系統執行所述完成硬體錯誤的處理。
16.如權利要求14所述的方法,還包括從所述接口向所述作業系統提供通知,指出所述至少一個硬體適配器已被隔離;其中所述作業系統響應所述通知執行所述完成硬體錯誤的處理。
17.如權利要求14所述的方法,其中所述接口包括與所述作業系統相關聯的設備驅動器的內核擴展。
18.如權利要求14所述的方法,還包括響應對所述硬體錯誤的檢測,調用與所述作業系統相關聯的設備驅動器的熱啟動。
19.至少一個程序存儲設備,其有形地包含可由至少一個處理器執行的指令程序,以便執行用於處理具有多個硬體適配器的計算系統中的硬體錯誤的方法,所述方法包括向所述計算系統的作業系統註冊接口;在所述接口處檢測所述計算系統中的硬體錯誤;響應所述檢測,確定可能產生所述硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器;以及在所述隔離之後,完成所述硬體錯誤的處理而不引起所述計算系統的崩潰。
20.一種數據存儲設備,包括錯誤寄存器,用於記錄由多個硬體適配器產生的錯誤;以及至少一個群集,包括至少一個處理器,其執行計算機可讀代碼,從而提供一個作業系統以及與所述作業系統的接口;其中所述接口檢測所述計算系統中的硬體錯誤,檢查所述錯誤寄存器以便確定可能產生所述硬體錯誤的至少一個硬體適配器,並隔離所述至少一個硬體適配器;以及在所述隔離之後,所述作業系統完成所述硬體錯誤的處理而不引起所述數據存儲設備的崩潰。
21.如權利要求20所述的數據存儲設備,其中所述隔離包括重置所述至少一個硬體適配器。
22.如權利要求20所述的數據存儲設備,其中所述隔離包括隔開所述至少一個硬體適配器。
23.如權利要求20所述的數據存儲設備,其中所述接口包括與所述作業系統相關聯的設備驅動器的內核擴展。
24.如權利要求20所述的數據存儲設備,其中所述至少一個處理器執行所述計算機可讀代碼,以便為所述多個硬體適配器提供設備驅動器;以及所述設備驅動器響應對所述硬體錯誤的檢測調用熱啟動。
25.如權利要求20所述的數據存儲設備,其中所述接口向所述作業系統提供通知,指出所述至少一個硬體適配器已被隔離;以及所述作業系統響應所述通知執行所述完成硬體錯誤的處理。
全文摘要
一種用於處理計算系統例如數據存儲設備中的硬體錯誤同時避免系統崩潰的技術。向計算系統的作業系統註冊接口以便處理硬體錯誤。當檢測到硬體錯誤時,該接口檢查錯誤寄存器,以便識別可能引起所述錯誤的適配器,並進行隔離,例如使出錯的適配器和計算系統隔開。然後接口通知作業系統已經處理了該錯誤,從而使得作業系統旁路否則可能發生的系統崩潰。所述接口可以作為和作業系統相關聯的設備驅動器的內核擴展被提供。
文檔編號G06F11/00GK1776630SQ200510114978
公開日2006年5月24日 申請日期2005年11月16日 優先權日2004年11月17日
發明者J·J·魯伊斯, 許育誠, 宋正中, J·N·麥考利, W·G·舍曼 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀