一種基於龍芯平臺的高性能計算資源監控實現方法
2023-10-08 22:16:09 1
一種基於龍芯平臺的高性能計算資源監控實現方法
【專利摘要】本發明公開了一種基於龍芯平臺的高性能計算資源監控實現方法,所述方法採用龍芯多單元伺服器的N個伺服器構成集群,其中1個伺服器作為控制節點、剩餘伺服器作為計算節點;每個伺服器均通過其北橋的PCIE總線擴展高速通信設備infiniband接口,在控制節點與計算節點中對資源監控軟體進行修改編譯,使其可以適用於龍芯平臺,組建可實時監控各個節點的網絡,使用戶可以在控制節點登陸瀏覽器查看各個節點的資源佔用狀態;用戶在控制節點中通過OpenMPI中的mpirun指令,將作業分發於各計算節點執行,各計算節點完成作業任務後,由控制節點進行收集,並得出最終的數據處理結果。本發明具有設計科學、使用方便等優點,可在國產化計算機伺服器領域尤其是申威平臺中實現,便於推廣使用,可以應用於陸地、航空、衛星等領域。
【專利說明】一種基於龍芯平臺的高性能計算資源監控實現方法
【技術領域】
[0001]本發明涉及計算機伺服器通信【技術領域】,具體涉及一種基於龍芯平臺的高性能計算資源監控實現方法。
技術背景
[0002]高性能計算(HPC)集群主要是完成大規模的數據計算問題。採用多個節點來共同執行計算任務,以提高信息計算系統的運算效率。目前主要應用於X86平臺。而在國產化計算機伺服器等自主領域,尤其是龍芯平臺中,其運算性能還比較低,與國外先進計算機系統相比還具有較大的差距,而且還沒有相關的資源監控策略。因此,在龍芯平臺中,採用高性能計算資源監控方法來提高其計算效率、對資源進行實時監控凸顯重要。
【發明內容】
[0003]本發明要解決的技術問題是:如何克服現有技術的上述缺陷,提供一種在國產化計算機伺服器等自主領域尤其是龍芯平臺上實現高性能計算資源監控的方法。
[0004]本發明所採用的技術方案為:
一種基於龍芯平臺的高性能計算資源監控實現方法,所述方法實現步驟如下:
1)採用龍芯多單元伺服器的N個伺服器構成集群,其中I個伺服器作為控制節點、剩餘伺服器作為計算節點;
2)每個伺服器均通過其北橋的PCIE總線擴展高速通信設備infiniband接口,並與伺服器的infiniband交換機相連,進而構建控制節點與計算節點之間的數據通信網絡;
3)在每個伺服器的作業系統中配置infiniband通信方式為IPoIB方式,以此來進行並行程序間的數據通信;
4)分別在控制節點與計算節點中修改編譯OpenMPI,使其可以在龍芯平臺中應用,部署基於OpenMPI的並行程序編譯與運行環境;
5)在控制節點與計算節點中對資源監控軟體進行修改編譯,使其可以適用於龍芯平臺,組建可實時監控各個節點的網絡,使用戶可以在控制節點登陸瀏覽器查看各個節點的資源佔用狀態;
6)用戶在控制節點中通過OpenMPI中的mpirun指令,將作業分發於各計算節點執行,各計算節點完成作業任務後,由控制節點進行收集,並得出最終的數據處理結果。
[0005]所述方法在控制節點中通過修改資源監控軟體,部署可用於龍芯平臺的web端監控界面、監控管理端(gmetad)、客戶端(gmond),並部署gmetad的依賴軟體rrdtool及httpd服務等。
[0006]所述方法在計算節點中修改專用作業管理軟體,部署可用於龍芯平臺的客戶端(gmond)ο
[0007]各個計算節點通過gmond收集本機的信息(如:CPU>memeory等),然後將信息數據發送給控制節點中的gmond,控制節點中的gmetad向本機中的gmond請求數據信息,然後存入rrdtool資料庫,最後通過web端界面顯示出各個節點的資源狀態信息,以實現對各個節點的實時監測。
[0008]所述伺服器為伺服器刀片。
[0009]本發明的有益效果為:本發明具有設計科學、使用方便等優點,可在國產化計算機伺服器領域尤其是申威平臺中實現,便於推廣使用,可以應用於陸地、航空、衛星等領域。
【專利附圖】
【附圖說明】
[0010]圖1為本發明基於龍芯平臺的高性能計算的結構框圖;
圖2為本發明基於龍芯平臺的資源監控工作流程圖。
【具體實施方式】
[0011]下面參照附圖所示,通過【具體實施方式】對本發明進一步說明:
如圖1所示,一種基於龍芯平臺的高性能計算資源監控實現方法,所述方法實現步驟如下:
1)採用龍芯多單元伺服器的N個伺服器構成集群,其中I個伺服器作為控制節點、剩餘伺服器作為計算節點;
2)每個伺服器均通過其北橋的PCIE總線擴展高速通信設備infiniband接口,並與伺服器的infiniband交換機相連,進而構建控制節點與計算節點之間的數據通信網絡;
3)在每個伺服器的作業系統中配置infiniband通信方式為IPoIB方式,以此來進行並行程序間的數據通信;
4)分別在控制節點與計算節點中修改編譯OpenMPI,使其可以在龍芯平臺中應用,部署基於OpenMPI的並行程序編譯與運行環境;
5)在控制節點與計算節點中對資源監控軟體進行修改編譯,使其可以適用於龍芯平臺,組建可實時監控各個節點的網絡,使用戶可以在控制節點登陸瀏覽器查看各個節點的資源佔用狀態;
6)用戶在控制節點中通過OpenMPI中的mpirun指令,將作業分發於各計算節點執行,各計算節點完成作業任務後,由控制節點進行收集,並得出最終的數據處理結果。
[0012]所述方法在控制節點中通過修改資源監控軟體,部署可用於龍芯平臺的web端監控界面、監控管理端(gmetad)、客戶端(gmond),其中還需部署gmetad的依賴軟體rrdtool及httpd服務等。
[0013]所述方法在計算節點中修改專用作業管理軟體,部署可用於龍芯平臺的客戶端(gmond)ο
[0014]如圖2所示,各個計算節點通過gmond收集本機的信息(如-.CPU、memeory等),然後將信息數據發送給控制節點中的gmond,控制節點中的gmetad向本機中的gmond請求數據信息,然後存入rrdtool資料庫,最後通過web端界面顯示出各個節點的資源狀態信息,以實現對各個節點的實時監測。
[0015]所述伺服器為伺服器刀片。
[0016]以上實施方式僅用於說明本發明,而並非對本發明的限制,有關【技術領域】的普通技術人員,在不脫離本發明的精神和範圍的情況下,還可以做出各種變化和變型,因此所有等同的技術方案也屬於本發明的範疇,本發明的專利保護範圍應由權利要求限定。
【權利要求】
1.一種基於龍芯平臺的高性能計算資源監控實現方法,其特徵在於,所述方法實現步驟如下: 1)採用龍芯多單元伺服器的N個伺服器構成集群,其中I個伺服器作為控制節點、剩餘伺服器作為計算節點; 2)每個伺服器均通過其北橋的PCIE總線擴展高速通信設備infiniband接口,並與伺服器的infiniband交換機相連,進而構建控制節點與計算節點之間的數據通信網絡; 3)在每個伺服器的作業系統中配置infiniband通信方式為IPoIB方式,以此來進行並行程序間的數據通信; 4)分別在控制節點與計算節點中修改編譯OpenMPI,使其可以在龍芯平臺中應用,部署基於OpenMPI的並行程序編譯與運行環境; 5)在控制節點與計算節點中對資源監控軟體進行修改編譯,使其可以適用於龍芯平臺,組建可實時監控各個節點的網絡,使用戶可以在控制節點登陸瀏覽器查看各個節點的資源佔用狀態; 6)用戶在控制節點中通過OpenMPI中的mpirun指令,將作業分發於各計算節點執行,各計算節點完成作業任務後,由控制節點進行收集,並得出最終的數據處理結果。
2.根據權利要求1所述的一種基於龍芯平臺的高性能計算資源監控實現方法,其特徵在於:在控制節點中通過修改資源監控軟體,部署用於龍芯平臺的web端監控界面、監控管理端gmetad、客戶端gmond,並部署gmetad的依賴軟體rrdtool及httpd服務。
3.根據權利要求1或2所述的一種基於龍芯平臺的高性能計算資源監控實現方法,其特徵在於:在計算節點中修改專用作業管理軟體,部署用於龍芯平臺的客戶端gmond。
4.根據權利要求3所述的一種基於龍芯平臺的高性能計算資源監控實現方法,其特徵在於:各個計算節點通過gmond收集本機的信息,然後將信息數據發送給控制節點中的gmond,控制節點中的gmetad向本機中的gmond請求數據信息,然後存入rrdtool資料庫,最後通過web端界面顯示出各個節點的資源狀態信息,以實現對各個節點的實時監測。
5.根據權利要求3所述的一種基於龍芯平臺的高性能計算資源監控實現方法,其特徵在於:所述伺服器為伺服器刀片。
【文檔編號】H04L12/26GK104468810SQ201410786020
【公開日】2015年3月25日 申請日期:2014年12月18日 優先權日:2014年12月18日
【發明者】趙瑞東, 陳亮甫, 吳登勇 申請人:山東超越數控電子有限公司