新四季網

一種用於並行計算機系統的帶外診斷測試接口及測試方法

2023-11-12 04:43:32 1

專利名稱:一種用於並行計算機系統的帶外診斷測試接口及測試方法
技術領域:
本發明主要涉及到並行計算機系統的診斷測試技術領域,特指一種用於並行計算機 系統的帶外診斷測試接口及測試方法。
背景技術:
並行計算機系統通常由多個節點組成。每一個節點具有自己的微處理器、節點控制 器、本地內存、互連通信接口、輸入輸出設備等,形成一個相對獨立的系統。所有節點 通過互連通信接口進行互連,組成高性能的並行計算機系統。隨著超大規模集成電路技 術的發展以及印製電路板製造工藝的提高,現在的並行計算機系統性能日益提高,軟硬 件規模和複雜性也日益增大,故障診斷測試問題越來越受到人們的重視。研究人員展開 了大量的系統診斷和測試問題的研究,許多新技術、新方法都應用到了系統的故障診斷 測試之中,融入到了系統設計的各個層次,力求使系統具有良好的診斷測試性,可以及 時、快速地檢測與隔離故障,提高系統運行的可靠性與安全性,縮短故障檢測與隔離時 間,進而減少維修時間,提高系統的可用性,降低系統使用保障費用。
目前業界對計算機系統的診斷測試方法主要採取內部測試為主,外部測試與內部測 試相結合的方法。外部測試使用專門的外部測試設備(如示波器、邏輯分析儀等)和被 測對象連接起來,對被測對象進行測試和診斷。但是外部測試不能完全滿足實時測試與 診斷需求,因而產生了內部測試。內部測試技術是對系統進行測試性設計,使系統本身 具有一定的自我診斷測試能力,能夠在系統運行時實時監測系統中的某些參數和狀態, 自動檢測與隔離故障。
然而,業界針對計算機系統採取的診斷測試方法,只能對系統的部分顯式靜態故障 進行檢測,對於系統運行中出現的動態隱式故障以及部分顯式靜態故障則缺乏有效的檢 測手段,無法做到在不影響系統正常運行的情況下獲得系統內部實時的運行狀態信息, 不能對系統進行帶外診斷測試。特別是現在大規模的並行計算機系統,系統中包含的主 板種類多、數量大,對系統可靠性、可用性和可維護性要求高,診斷測試任務繁重,目 前尚未有一種有效的方法來實現對並行計算機系統多個節點的並行帶外診斷測試。

發明內容
本發明要解決的問題就在於針對現有技術存在的技術問題,本發明提供一種結構
簡單、操作簡便、可靠性和穩定性高的用於並行計算機系統的帶外診斷測試接口及測試 方法。
為解決上述技術問題,本發明提出的解決方案為 一種用於並行計算機系統的帶外 診斷測試接口,其特徵在於它包括外部連接埠單元和內部診斷測試邏輯單元,所述外
部連接埠單元包括邊界掃描測試訪問埠 TAP和與微處理器相連的RS232串行接口, 所述內部診斷測試邏輯單元包括
診斷測試指令寄存器,用於存儲診斷測試指令;
診斷測試數據寄存器,用於存儲診斷測試數據或者診斷測試指令的執行結果; 主機指令寄存器,微處理器直接訪問,用於存儲微處理器發送過來的錯誤處理指令; 主機數據寄存器,微處理器直接訪問,用於存儲微處理器發送過來的錯誤處理數據; 系統內部錯誤和狀態寄存器,節點控制器將系統內部各個模塊產生的錯誤以及一些
關鍵狀態信息存儲在此寄存器內;
TAP控制器,用於實現對診斷測試指令/數據寄存器、主機指令/數據寄存器、系統內
部錯誤和狀態寄存器的讀寫訪問控制;
診斷測試邏輯控制器,用於對系統主控管理模塊加載的診斷測試指令進行解析,產
生相應的控制信號來啟動硬體對診斷測試指令自動處理;
串口控制器,實現串口通信控制功能,為系統提供控制臺終端服務; 中斷控制邏輯單元,根據內部錯誤和狀態寄存器的內容及微處理器的錯誤處理指令
生成相應的錯誤中斷信號。
所述中斷控制邏輯單元所接收的錯誤中斷信號包括顯式錯誤中斷信號和隱式錯誤中
斷信號,顯式錯誤中斷信號由系統節點控制器提供,用於系統運行時的故障檢測;隱式
錯誤中斷信號由微處理器進行設置,如果微處理器在執行指令的過程中發生錯誤或者需
要進行診斷測試操作,微處理器就會設置相應的錯誤中斷信號通知主控管理模塊進行錯
誤處理或診斷測試操作。
所述診斷測試指令寄存器為64位,由VAL (bit63)、 PI (bit62)、 NPI (bit61)、 CMP (bit60)、 CMD (bit[59:57])和ADDR (bit[56:0]) 6個域組成,各個域的含義如下
VAL:診斷測試指令有效標誌;硬體根據該標誌處理診斷測試指令,該位只能由主
控管理模塊通過邊界掃描寫入設置,微處理器不可以操作;診斷測試接口控制邏輯通過
檢測數據置位的上升沿啟動對指令域的處理,主控管理模塊啟動一條診斷測試指令後,
在啟動下一個指令時,需要將該位置為"o"後,再置為"r來啟動下一個指令的處理,即產
生一個上升沿脈衝信號;PI:微處理器處理指令類型標誌,表示指令類型是需要微處理器處理的指令;如果 指令是微處理器處理指令類型,則診斷測試接口硬體直接產生微處理器指令處理信號, 通知微處理器進行處理;
NPI:即非PI指令標誌,表示指令類型是寄存器訪問、清診斷測試指令寄存器、清 錯誤中斷等測試指令類型;如果是非PI指令類型,則由節點控制器硬體自動進行處理;
CMP:指令處理完成標誌;在主控管理模塊啟動一個指令後,診斷測試接口硬體首 先將該標誌位置'T',然後節點控制器或者微處理器開始指令處理,在指令處理完成後清 "0";
CMD :診斷測試指令域,表示具體的指令類型-
今000:清零指令,對指令寄存器清零,為下次操作準備; 今001:寄存器讀指令; 令010:寄存器寫指令;
今Oil:清微處理器錯誤中斷指令,同時置指令完成標誌;
今1XX:主控管理模塊發出給微處理器的指令,其中二進位的XX為預先約定 的指令,微處理器根據XX的內容執行指定的操作; ADDR:寄存器地址域,表示寄存器的具體字地址。
所述診斷測試主機指令寄存器為64位,由VAL (bit63)、 PEI (bit62)、 CLR (bit61) RESV (bit[60:0]) 6個域組成,各個域的含義如下
VAL:隱式錯誤處理指令有效標誌;此有效位置"l",表明當前主機指令寄存器和主 機數據寄存器內容有效;
PEI:隱式錯誤處理中斷標誌,此位置"l",診斷測試接口產生一個隱式錯誤中斷信 號,通知系統主控管理模塊對此隱式錯誤進行處理;
CLR:微處理器無條件清主機指令寄存器信號,用於主控管理模塊沒有清除主機指 令寄存器時,微處理器自己清該寄存器。
所述診斷測試主機指令寄存器為64位,由VAL (bit63)、 PEI (bit62)、 CLR (bit61) RESV (bit[60:0]) 6個域組成,各個域的含義如下
VAL:隱式錯誤處理指令有效標誌;此有效位置"l",表明當前主機指令寄存器和主 機數據寄存器內容有效;
PEI:隱式錯誤處理中斷標誌,此位置'T',診斷測試接口產生一個隱式錯誤中斷信 號,通知系統主控管理模塊對此隱式錯誤進行處理;
CLR:微處理器無條件清主機指令寄存器信號,用於主控管理模塊沒有清除主機指 令寄存器時,微處理器自己清該寄存器。
根據權利要求1的用於並行計算機系統的帶外診斷測試方法,其特徵在於步驟為
D. 主控管理模塊對相應的節點通過帶外診斷測試接口進行帶外診斷測試;
E. 主控管理模塊對診斷測試結果進行分析,查找並定位錯誤;
F. 主控管理模塊將系統錯誤和診斷測試結果報告系統管理者。
在步驟A之前,可以通過主控管理模塊檢測系統某個節點的帶外診斷測試接口的顯 式錯誤中斷信號或/和隱式錯誤中斷信號。 所述步驟A包括以下內容
讀取帶外診斷測試狀態和錯誤寄存器內容,查看系統運行狀態,查找系統靜態顯式 故障;
或者,讀取帶外診斷測試主機指令/數據寄存器內容,查找系統運行中的動態隱式故
障;
或者,通過診斷測試指令/數據寄存器,讀取內存、IO設備和節點控制器內部相關寄 存器信息,提供系統診斷現場數據; 或者以上各內容的組合。 與現有技術相比,本發明的優點就在於
1、 與目前業界診斷測試技術相比較,本發明在微處理器訪問接口之外設計了診斷測 試指令/數據寄存器和主機指令/數據寄存器,可以使系統主控管理模塊在不影響系統節點 正常運行的情況下對節點控制器進行動態調試和管理,對內存存儲單元、內部寄存器、 外部設備進行訪問,特別是系統宕機時能夠對系統現場進行讀取,為系統故障的診斷測 試提供了一個可靠高效的手段,這也是本發明的一個關鍵點所在。
2、 採用本發明設計的帶外診斷測試接口和並行帶外診斷測試方法,優點在於各個主 控管理模塊獨立操作,既不需要系統管理員的參與,也不會影響系統的正常運行,相互 之間也沒有任何約束關係,從而做到了真正意義上的並行帶外診斷測試,大大提高了整 個計算機系統的診斷測試效率,特別是對於大規模並行計算機系統,其可用性和可維護 性將躍上一個新的臺階。
3、 不同的系統規模,主控管理模塊的數目也有所不同。由於主控管理模塊的工作獨 立於系統管理終端,因此整個系統的診斷測試結構具有良好的擴展性和並行性,特別有 利於對大規模並行計算機系統進行並行帶外診斷測試。


圖1是本發明帶外診斷測試接口的結構框架示意圖; 圖2是本發明中診斷測試指令寄存器格式的示意圖; 圖3是本發明中診斷測試主機指令寄存器格式的示意圖; 圖4是本發明中診斷測試接口讀寫內部寄存器的流程示意圖; 圖5是本發明使用的節點控制器接口示意圖; 圖6是本發明的並行帶外診斷測試方法示意圖。
具體實施例方式
以下將結合附圖和具體實施例對本發明做進一步詳細說明。
本發明的一種用於並行計算機系統的帶外診斷測試接口 ,它包括外部連接埠單元 和內部診斷測試邏輯單元,所述外部連接埠單元包括邊界掃描測試訪問埠 TAP和與 微處理器相連的RS232串行接口,所述內部診斷測試邏輯單元包括
診斷測試指令寄存器,用於存儲診斷測試指令;
診斷測試數據寄存器,用於存儲診斷測試數據或者診斷測試指令的執行結果; 主機指令寄存器,微處理器直接訪問,用於存儲微處理器發送過來的錯誤處理指令; 主機數據寄存器,微處理器直接訪問,用於存儲微處理器發送過來的錯誤處理數據; 系統內部錯誤和狀態寄存器,節點控制器將系統內部各個模塊產生的錯誤以及一些
關鍵狀態信息存儲在此寄存器內;
TAP控制器,用於實現對診斷測試指令/數據寄存器、主機指令/數據寄存器、系統內
部錯誤和狀態寄存器的讀寫訪問控制;
診斷測試邏輯控制器,用於對系統主控管理模塊加載的診斷測試指令進行解析,產
生相應的控制信號來啟動硬體對診斷測試指令自動處理;
串口控制器,實現串口通信控制功能,為系統提供控制臺終端服務;
中斷控制邏輯單元,根據內部錯誤和狀態寄存器的內容及微處理器的錯誤處理指令
生成相應的錯誤中斷信號。
其中,中斷控制邏輯單元所接收的錯誤中斷信號包括顯式錯誤中斷信號和隱式錯誤
中斷信號,顯式錯誤中斷信號由系統節點控制器提供,用於系統運行時的故障檢測;隱
式錯誤中斷信號由微處理器進行設置,如果微處理器在執行指令的過程中發生錯誤或者
需要進行診斷測試操作,微處理器就會設置相應的錯誤中斷信號通知主控管理模塊進行
錯誤處理或診斷測試操作。
在本發明中,帶外診斷測試是指在不需要微處理器參與、不影響系統正常運行的情
況下進行的診斷測試操作。並行帶外診斷測試是指在不影響系統正常運行的情況下對並
行計算機系統的多個節點進行並行帶外診斷測試操作。診斷測試接口設計在系統節點的
節點控制器內,是系統節點控制器的一個外部接口。系統節點控制器,含有微處理器接口、存儲器接口、 IO接口、互連接口以及帶外診斷測試接口等。微處理器接口與微處理 器總線相連,存儲器接口與存儲器總線相連;微處理器通過該接口訪問本地存儲器,其 它節點通過節點間的互連通路(即內部高速互連網絡)實現對此節點本地存儲器的訪問。 IO接口用於掛接IO總線和IO設備,具有本地(本節點微處理器訪問)和遠程(其它節 點對其進行訪問)訪問能力。互連接口模塊實現與系統內部高速互連網絡的連接,通過 該模塊本節點微處理器可以訪問其它節點上的資源,其它節點也可以訪問此節點上的本 地資源。邊界掃描測試訪問埠 TAP及TAP控制器符合正EE1994.1技術標準。邊界掃 描技術是目前業界一個成熟的技術標準。系統節點控制器內設計有邊界掃描測試訪問端 口 TAP、邊界掃描測試訪問埠控制器、邊界掃描指令寄存器、 一組邊界掃描測試數據 寄存器,能夠實現旁路測試(bypass)、外測試(extest)、採樣測試(sample)、高阻態測 試(highz)等基本的邊界掃描操作。同時TAP控制器內設計有讀寫帶外診斷測試接口內 部寄存器的控制邏輯,實現了利用邊界掃描機制讀寫帶外診斷測試接口內部寄存器的功 能。診斷測試指令寄存器、診斷測試數據寄存器、主機指令寄存器、主機數據寄存器以 及系統錯誤和狀態寄存器組成一個邊界掃描寄存器鏈,由一條邊界掃描寄存器訪問指令 控制對它們的訪問操作。診斷測試指令由指令碼和操作地址組成。主控管理模塊使用診 斷測試指令對節點內部進行診斷測試,這種診斷測試既可以通過節點控制器對硬體直接 進行診斷測試,又可以與微處理器進行交互診斷測試。診斷測試指令的指令碼和操作地 址由主控管理模塊通過邊界掃描寄存器訪問指令發送到節點控制器。診斷測試指令是由 主控管理模塊根據用戶輸入或者診斷測試需要而生成的,指令分為節點控制器處理指令 和微處理器處理指令兩類。節點控制器處理指令直接通過節點控制器對硬體進行診斷測 試,微處理器處理指令實現主控管理模塊與微處理器的交互診斷測試。主控管理模塊發 出的節點控制器處理指令由節點控制器硬體自動處理,整個過程不需要微處理器的參與, 不影響系統的正常運行;對於主控管理模塊發出的微處理器處理指令,診斷測試控制邏 輯產生微處理器處理指令信號來通知微處理器進行處理,節點控制器硬體不再做其它操 作。微處理器響應診斷測試指令處理信號,完成指定的診斷測試操作,實現與主控管理 模塊的交互診斷測試。操作地址指明了指令操作對象的系統內部地址,如寄存器地址、 內存存儲單元地址、IO設備地址等。診斷測試指令需要的數據存儲在診斷測試數據寄存 器中,節點控制器或者微處理器在將指令處理完成後,若有結果數據,則將結果數據保 存在這個寄存器中。主機指令寄存器和主機數據寄存器為檢測系統運行中的動態隱式錯 誤提供了一個手段。當微處理器在正常運行過程中發現錯誤或者需要進行診斷測試操作 時,微處理器就直接訪問這兩個寄存器,將處理錯誤指令和數據寫入,同時設置相應的 微處理器中斷信號通知系統主控管理模塊進行診斷測試和錯誤處理。系統內部錯誤與狀態寄存器的內容反映了節點控制器內部實時的狀態觀察和靜態錯誤檢査,通過讀取這個 寄存器的值,系統管理者可以實時了解系統的運行狀態,並對內部錯誤作出快速的診斷。 錯誤中斷信號包括顯式錯誤中斷信號和隱式錯誤中斷信號。顯式錯誤中斷信號由系統節 點控制器提供,用於系統運行時的故障檢測。節點控制器內部各個模塊產生錯誤後,都 會向中斷控制邏輯產生一個顯式錯誤信號,中斷控制邏輯在檢測到顯式錯誤信號後,形 成一個總的顯式錯誤中斷信號,通過診斷測試接口的顯式錯誤中斷信號送出;隱式錯誤 中斷信號由微處理器進行設置,如果微處理器在執行指令的過程中發生錯誤或者需要進 行診斷測試操作,微處理器就會設置相應的錯誤中斷信號通知主控管理模塊進行錯誤處 理或診斷測試操作。
在上述裝置的設計下,本發明進一步提出了根據上述裝置,用於並行計算機系統的 帶外診斷測試方法,當系統管理者希望通過診斷測試接口査看系統運行狀態或者讀取系 統內部數據時,其步驟為
A. 主控管理模塊對相應的節點通過帶外診斷測試接口進行帶外診斷測試;
B. 主控管理模塊對診斷測試結果進行分析,查找並定位錯誤;
C. 主控管理模塊將系統錯誤和診斷測試結果報告系統管理者。
在較佳實施例中,在步驟A之前,可以通過主控管理模塊檢測系統某個節點的帶外 診斷測試接口的顯式錯誤中斷信號或/和隱式錯誤中斷信號。
所述主控管理模塊具有系統監控管理功能,對系統節點進行的各種診斷測試操作都 是在主控管理模塊的管理控制下完成的。主控管理模塊通過邊界掃描鏈路向診斷測試接 口發送診斷測試指令和數據,同時從診斷測試接口接收診斷測試結果數據並對數據進行 分析,査找和定位系統故障;主控管理模塊可以有多種形式,既可以用系統管理終端實 現其功能,也可以作為一個功能模塊設計在系統節點上。本方法中,為實現對並行計算 機系統進行並行帶外診斷測試操作,將主控管理模塊單獨設計為一個系統管理控制板, 能夠同時與多個系統節點的帶外診斷測試接口連接,實現對多個系統節點的並行實時控 制、監視和診斷。
其中,步驟A包括以下內容-
讀取帶外診斷測試狀態和錯誤寄存器內容,査看系統運行狀態,査找系統靜態顯式 故障;
或者,讀取帶外診斷測試主機指令/數據寄存器內容,查找系統運行中的動態隱式故
障;
或者,通過診斷測試指令/數據寄存器,讀取內存、IO設備和節點控制器內部相關寄 存器信息,提供系統診斷現場數據;或者以上各內容的組合。
以下所舉的為具體實施例,在該實施例中,如圖1所示,是本發明設計的帶外診斷 測試接口,從圖中可以看出,主要包括以下幾個部分TAP控制器、診斷測試指令寄存 器(TESTJ3MD)、診斷測試數據寄存器(TEST一DATA)、主機指令寄存器(HOST—CMD)、 主機數據寄存器(HOST一DATA)、狀態與錯誤標誌寄存器、診斷測試控制邏輯模塊、中 斷控制邏輯模塊、RS232串口控制器。診斷測試接口通過邊界掃描TAP埠、 RS232與 系統主控管理模塊連接,並輸出兩個中斷信號來表明內部異常狀態。
診斷測試指令/數據寄存器、主機指令/數據寄存器、狀態與錯誤標誌寄存器組成一個 邊界掃描用戶寄存器鏈,對這些寄存器的讀寫都是通過邊界掃描TAP埠,在TAP控制 器的控制下實現的。
診斷測試處理控制邏輯模塊檢測接口輸入指令的有效性,並按照不同的指令類型作 出不同的處理
*微處理器處理指令,則直接產生微處理器處理指令信號通知微處理器對此指令進 行處理,節點控制器硬體不再做其它的操作。微處理器處理完指令後,設置指令 處理完成標誌;
內部寄存器訪問指令和其它測試指令,則產生各種邏輯控制信號,啟動節點控制 器硬體對指令進行處理;指令處理完後,設置指令處理完成標誌;
狀態與錯誤標誌寄存器的內容反映了節點控制器內部靜態的錯誤檢査和狀態觀察, 通過讀取這個寄存器的值,系統管理者可以實時了解系統的運行狀態,並對內部錯誤作 出快速的診斷。
節點控制器提供的顯式錯誤中斷信號用於系統靜態顯式故障的檢測,節點控制器內 部各個模塊產生錯誤後,都會向中斷控制邏輯產生一個錯誤信號,中斷控制邏輯在檢測 到錯誤信號後,形成一個總的錯誤中斷信號,通過診斷測試接口送給系統主控管理模塊。 系統主控管理模塊一旦檢測到節點控制器發出的總錯信號,將立即讀取節點控制器內部 關鍵寄存器的內容和錯誤標誌寄存器的內容,對錯誤進行快速診斷。
隱式錯誤中斷信號用於系統動態隱式故障的檢測,微處理器在執行指令過程中發生 錯誤後或者在需要進行診斷測試時,就將錯誤處理指令和錯誤處理數據寫入主機指令寄 存器和主機數據寄存器。系統主控管理模塊一旦檢測到帶外診斷測試接口發出的隱式錯 誤中斷信號,將立即讀取主機指令寄存器和主機數據寄存器的內容,進行快速診斷處理。
RS232串行接口是系統管理者與微處理器交互通信的接口,系統管理者通過這個串
口向微處理器發送指令,微處理器通過此串口顯示運行狀態信息,實現硬體邏輯和系統 軟體的功能調試,為系統提供控制臺終端服務。
圖2為本發明的診斷測試指令寄存器示意圖,該寄存器有64位,由VAL(bit63)、 PI (bit62)、 NPI (bit61)、 CMP (bit60)、 CMD (bit[59:57])和ADDR (bit[56:0])等6 個域組成,各個域的含義如下-
* VAL:診斷測試指令有效標誌;硬體根據該標誌處理診斷測試指令,該位只能由 主控管理模塊通過邊界掃描寫入設置,微處理器不可以操作;診斷測試接口控制 邏輯通過檢測數據置位的上升沿啟動對指令域的處理。主控管理模塊啟動一條診 斷測試指令後,在啟動下一個指令時,需要將該位置為"0"後,再置為"l"來啟動 下一個指令的處理(即產生一個上升沿脈衝信號);
* PI:微處理器處理指令類型標誌,表示指令類型是需要微處理器處理的指令;如 果指令是微處理器處理指令類型,則診斷測試接口硬體直接產生微處理器指令處 理信號,通知微處理器進行處理。
* NPI:即非PI指令標誌,表示指令類型是寄存器訪問、清診斷測試指令寄存器、 清錯誤中斷等測試指令類型;如果是非PI指令類型,則由節點控制器硬體自動 進行處理。
* CMP:指令處理完成標誌;在主控管理模塊啟動一個指令後,診斷測試接口硬 件首先將該標誌位置"r,然後節點控制器或者微處理器開始指令處理,在指令 處理完成後清"0"。
* CMD :診斷測試指令域,表示具體的指令類型
今000:清零指令,對指令寄存器清零,為下次操作準備;
今001:寄存器讀指令;
令010:寄存器寫指令;
今011:清微處理器錯誤中斷指令,同時置指令完成標誌;
今1XX:主控管理模塊發出給微處理器的指令,其中二進位的XX為預先約定
的指令,微處理器根據xx的內容執行指定的操作。
* ADDR:寄存器地址域,表示寄存器的具體字地址。實際有效位設計為32位,
也可以根據系統設計需要進行更改。 圖3為本發明的診斷測試主機指令寄存器示意圖,該寄存器有64位,由VAL(bit63)、 PEI (bit62)、 CLR (bit61) RESV (bit[60:0])等6個域組成,各個域的含義如下
參VAL:隱式錯誤處理指令有效標誌;此有效位置'T',表明當前主機指令寄存器
和主機數據寄存器內容有效。 * PEI:隱式錯誤處理中斷標誌。此位置'T',診斷測試接口產生一個隱式錯誤中斷
信號,通知系統主控管理模塊對此隱式錯誤進行處理。
CLR:微處理器無條件清主機指令寄存器信號,用於主控管理模塊沒有清除主機
指令寄存器時,微處理器自己清該寄存器。 主機指令/數據寄存器由微處理器寫入,系統主控管理模塊通過診斷測試接口進行讀 取,用來實時通知主控管理模塊,表示需要主控管理模塊對節點進行診斷測試或錯誤處 理,包括以下幾個步驟
1) 微處理器設置主機指令寄存器VAL標誌位,產生隱式錯誤中斷;
2) 系統主控管理模塊檢測到隱式錯誤中斷信號,通過診斷測試接口讀取主機指令寄 存器和主機數據寄存器的信息;
3) 系統主控管理模塊通過邊界掃描鏈路輸入特殊指令處理序列清隱式錯誤中斷信 號,或者微處理器自己清零主機指令寄存器。
圖4為使用本發明的診斷測試接口讀寫系統內部寄存器流程示意圖,包括如下幾個 步驟-
1) 清除指令寄存器的指令有效標誌位VAL;
2) 將診斷測試指令以及對應寄存器地址寫入測試指令寄存器;
3) 若指令為寫寄存器,則同時將數據寫入測試數據寄存器;
4) 設置指令寄存器的指令有效標誌VAL;
5) 節點控制器硬體檢測指令有效標誌位的上升沿變化,根據指令類型進行處理
a) 如果是預先定義的寄存器訪問指令,則進行寄存器訪問操作(包括讀和寫), 如果是寄存器讀操作,則將輸出值放在測試數據寄存器中;如果是寄存器寫 操作,則將測試數據寄存器的值寫入對應寄存器,最後設置指令處理完成標 志;
b) 如果是預先定義的清內部錯誤中斷指令,則清除內部錯誤中斷信號,設置指
令處理完成標誌;
c) 如果是預定義的微處理器處理指令類型,則節點控制器直接產生微處理器指 令中斷,通知微處理器進行處理。微處理器處理完後,設置指令處理完成標 志;
6) 系統主控管理模塊通過邊界掃描檢測指令處理完成標誌,如果指令處理完成標誌
有效,則表明指令處理完成,否則循環步驟6;
7) .若當前的診斷測試操作為讀取內部寄存器,則讀取數據寄存器的值,獲得讀取結果。
8) 若需要進行其它的讀寫操作,重複步驟1 7。
所述系統內部寄存器包括節點控制器的內部寄存器、內存存儲單元、IO等外部設備 存儲單元等。只要是節點控制器能夠訪問的地址,主控管理模塊都能夠通過帶外診斷測 試接口進行訪問。
通過診斷測試接口對節點控制器內部的系統控制寄存器進行設置,可以對系統節點 進行冷復位、熱復位等控制操作。當然,通過診斷測試接口能夠實現哪些控制操作依賴 於具體的節點控制器設計,不同的設計可以實現不同的控制功能。
圖5是本發明使用的節點控制器的接口示意圖。節點控制器包括微處理器接口模塊、 存儲器接口模塊、IO接口模塊、互連接口模塊和診斷測試接口模塊等。微處理器接口與 微處理器總線相連;存儲器接口模塊與存儲器總線相連,微處理器通過該模塊訪問本地 存儲器,其它節點通過節點間的互連通路(即內部高速互連網絡)實現對此節點本地存 儲器的訪問;IO接口模塊用於掛接IO總線和IO設備,具有本地和遠程(其它節點對其 進行訪問)訪問能力;互連接口模塊實現與系統內部高速互連網絡的連接,通過該模塊 本地微處理器可以訪問其它節點上的資源,其它節點也可以訪問本地資源。
圖6為本發明的並fi^帶外診斷測試方法示意圖,包括系統管理終端、系統主控管理 模塊以及多個系統節點三部分。
全系統可以有一個或多個管理終端,系統管理終端既可以是伺服器,也可以是臺式 機、便攜電腦。管理終端與系統主控管理模塊之間通過串口或/和乙太網連接,進行系統 管理、控制、監視、診斷測試信息的交換。
對系統進行並行帶外診斷測試包括兩個方面主動診斷測試和被動診斷測試。主動 診斷測試包括以下幾個步驟
1) 系統管理員通過管理終端査看系統運行狀態。串口終端軟體通過主控管理模塊的 串口控制模塊與系統節點帶外診斷測試串口建立連接,與微處理器進行交互通 信,查看系統實時運行狀態。
2) 系統管理員向一個或多個主控管理模塊發出帶外診斷測試指令數據包。帶外診斷 測試指令數據包中包含了相應目標節點的預定義編號、診斷測試操作以及相關的
一些信息,如寄存器讀寫地址、數據長度等。
3) 主控管理模塊接收到帶外診斷測試指令數據包後,對指定的節點進行帶外診斷測
試。主控管理模塊的診斷測模塊對接收到的診斷測試指令數據包進行分析,確定 相應的目標節點,通過目標節點的診斷測試接口進行診斷測試操作,並從返回的 測試數據中提取有效數據進行分析,生成診斷測試結果。
4) 主控管理模塊將帶外診斷測試結果上報到系統管理終端。
5) 系統管理員從系統管理終端獲得測試結果。
被動診斷測試在系統出現故障時進行,由相應的主控管理模塊對故障點實施操作,
包括以下幾個步驟
1) 主控管理模塊檢測到診斷測試接口的錯誤中斷信號;
2) 診斷測試模塊啟動對故障點的帶外診斷測試操作。
3) 診斷測試模塊將測試結果上報系統管理終端。
採用上述接口和方法後,在不需要增加額外的電纜連接、不影響被測試系統正常運 行的情況下能夠對並行計算機系統進行在線帶外診斷測試,並且能夠同時對多個系統節 點進行並行帶外診斷測試,成功地解決了現有技術中不能對計算機系統進行帶外診斷測 試的問題,特別是不能對並行計算機系統進行並行帶外診斷測試的問題,提高了系統的 可靠性、可用性和可維護性。該接口和方法已經應用於本單位自行研製的某高性能大規 模並行計算機系統中,取得了很好的效果。
由於本發明所提出及在附圖中展示的所有內容都是說明性而不是限制性的,因此在 不脫離本發明精神和範圍的情況下,本領域的技術人員可以對上述在本發明中實現的概 念作出許多可能的技術改動和變型。倘若對本發明的這些改動和變型屬於本發明權利要 求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。
權利要求
1、一種用於並行計算機系統的帶外診斷測試接口,其特徵在於它包括外部連接埠單元和內部診斷測試邏輯單元,所述外部連接埠單元包括邊界掃描測試訪問埠TAP和與微處理器相連的RS232串行接口,所述內部診斷測試邏輯單元包括診斷測試指令寄存器,用於存儲診斷測試指令;診斷測試數據寄存器,用於存儲診斷測試數據或者診斷測試指令的執行結果;主機指令寄存器,微處理器直接訪問,用於存儲微處理器發送過來的錯誤處理指令;主機數據寄存器,微處理器直接訪問,用於存儲微處理器發送過來的錯誤處理數據;系統內部錯誤和狀態寄存器,節點控制器將系統內部各個模塊產生的錯誤以及一些關鍵狀態信息存儲在此寄存器內;TAP控制器,用於實現對診斷測試指令/數據寄存器、主機指令/數據寄存器、系統內部錯誤和狀態寄存器的讀寫訪問控制;診斷測試邏輯控制器,用於對系統主控管理模塊加載的診斷測試指令進行解析,產生相應的控制信號來啟動硬體對診斷測試指令自動處理;串口控制器,實現串口通信控制功能,為系統提供控制臺終端服務;中斷控制邏輯單元,根據內部錯誤和狀態寄存器的內容及微處理器的錯誤處理指令生成相應的錯誤中斷信號。
2、 根據權利要求l所述的用於並行計算機系統的帶外診斷測試接口,其特徵在於 所述中斷控制邏輯單元所接收的錯誤中斷信號包括顯式錯誤中斷信號和隱式錯誤中斷信 號,顯式錯誤中斷信號由系統節點控制器提供,用於系統運行時的故障檢測;隱式錯誤 中斷信號由微處理器進行設置,如果微處理器在執行指令的過程中發生錯誤或者需要進 行診斷測試操作,微處理器就會設置相應的錯誤中斷信號通知主控管理模塊進行錯誤處 理或診斷測試操作。
3、 根據權利要求1或2所述的用於並行計算機系統的帶外診斷測試接口,其特徵在 於所述診斷測試指令寄存器為64位,由VAL (bit63)、 PI (bit62)、 NPI (bit61)、 CMP(b滿)、CMD (bit[59:57])和ADDR (bit[56:0]) 6個域組成,各個域的含義如下 VAL:診斷測試指令有效標誌;硬體根據該標誌處理診斷測試指令,該位只能由主 控管理模塊通過邊界掃描寫入設置,微處理器不可以操作;診斷測試接口控制邏輯通過 檢測數據置位的上升沿啟動對指令域的處理,主控管理模塊啟動一條診斷測試指令後,在啟動下一個指令時,需要將該位置為"o"後,再置為"r來啟動下一個指令的處理,即產 生一個上升沿脈衝信號;Ph微處理器處理指令類型標誌,表示指令類型是需要微處理器處理的指令;如果 指令是微處理器處理指令類型,則診斷測試接口硬體直接產生微處理器指令處理信號, 通知微處理器進行處理;NPI:即非PI指令標誌,表示指令類型是寄存器訪問、清診斷測試指令寄存器、清 錯誤中斷等測試指令類型;如果是非PI指令類型,則由節點控制器硬體自動進行處理;CMP:指令處理完成標誌;在主控管理模塊啟動一個指令後,診斷測試接口硬體首 先將該標誌位置"r,然後節點控制器或者微處理器開始指令處理,在指令處理完成後清"0";CMD :診斷測試指令域,表示具體的指令類型今000:清零指令,對指令寄存器清零,為下次操作準備; 令001:寄存器讀指令; 今010:寄存器寫指令;今Oil:清微處理器錯誤中斷指令,同時置指令完成標誌;今1XX:主控管理模塊發出給微處理器的指令,其中二進位的XX為預先約定 的指令,微處理器根據XX的內容執行指定的操作; ADDR:寄存器地址域,表示寄存器的具體字地址。
4、 根據權利要求1或2所述的用於並行計算機系統的帶外診斷測試接口,其特徵在 於所述診斷測試主機指令寄存器為64位,由VAL (bit63)、 PEI (bit62)、 CLR (bit61) RESV (bit[60:0]) 6個域組成,各個域的含義如下VAL:隱式錯誤處理指令有效標誌;此有效位置'T',表明當前主機指令寄存器和主 機數據寄存器內容有效;PEI:隱式錯誤處理中斷標誌,此位置"l",診斷測試接口產生一個隱式錯誤中斷信 號,通知系統主控管理模塊對此隱式錯誤進行處理;CLR:微處理器無條件清主機指令寄存器信號,用於主控管理模塊沒有清除主機指令寄存器時,微處理器自己清該寄存器。
5、 根據權利要求3所述的用於並行計算機系統的帶外診斷測試接口,其特徵在於所 述診斷測試主機指令寄存器為64位,由VAL (bit63)、 PEI (bit62)、 CLR (bit61) RESV(bit[60力])6個域組成,各個域的含義如下VAL:隱式錯誤處理指令有效標誌;此有效位置'T',表明當前主機指令寄存器和主 機數據寄存器內容有效;PEI:隱式錯誤處理中斷標誌,此位置"l",診斷測試接口產生一個隱式錯誤中斷信 號,通知系統主控管理模塊對此隱式錯誤進行處理;CLR:微處理器無條件清主機指令寄存器信號,用於主控管理模塊沒有清除主機指 令寄存器時,微處理器自己清該寄存器。
6、 根據權利要求1的用於並行計算機系統的帶外診斷測試方法,其特徵在於步驟為A. 主控管理模塊對相應的節點通過帶外診斷測試接口進行帶外診斷測試;B. 主控管理模塊對診斷測試結果進行分析,査找並定位錯誤;C. 主控管理模塊將系統錯誤和診斷測試結果報告系統管理者。
7、 根據權利要求6所述用於並行計算機系統的帶外診斷測試方法,其特徵在於在 所述步驟A之前,可以通過主控管理模塊檢測系統某個節點的帶外診斷測試接口的顯式 錯誤中斷信號或/和隱式錯誤中斷信號。
8、 根據權利要求6或7所述用於並行計算機系統的帶外診斷測試方法,其#徵在於 所述步驟A包括以下內容讀取帶外診斷測試狀態和錯誤寄存器內容,査看系統運行狀態,査找系統靜態顯式故障;或者,讀取帶外診斷測試主機指令/數據寄存器內容,査找系統運行中的動態隱式故障;或者,通過診斷測試指令/數據寄存器,讀取內存、IO設備和節點控制器內部相關寄 存器信息,提供系統診斷現場數據; 或者以上各內容的組合。
全文摘要
本發明公開了一種用於並行計算機系統的帶外診斷測試接口及測試方法,它包括外部連接埠單元和內部診斷測試邏輯單元,所述外部連接埠單元包括邊界掃描測試訪問埠TAP和與微處理器相連的RS232串行接口,所述內部診斷測試邏輯單元包括診斷測試指令寄存器、診斷測試數據寄存器、主機指令寄存器、主機數據寄存器、系統內部錯誤和狀態寄存器、TAP控制器、診斷測試邏輯控制器、串口控制器以及中斷控制邏輯單元。本發明是一種結構簡單、操作簡便、可靠性和穩定性高的用於並行計算機系統的帶外診斷測試接口及測試方法。
文檔編號G06F11/00GK101183321SQ20071019260
公開日2008年5月21日 申請日期2007年12月14日 優先權日2007年12月14日
發明者軍 劉, 宏 吳, 屈婉霞, 龐徵斌, 曹躍勝, 李永進, 田寶華, 勇 竇, 蔣句平, 謝倫國, 鄧讓鈺, 鄭明玲 申請人:中國人民解放軍國防科學技術大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀