一種生物信息學高性能計算平臺的測試方法
2023-05-23 13:35:16
一種生物信息學高性能計算平臺的測試方法
【專利摘要】本發明提出了一種生物信息學高性能計算平臺的測試方法,屬於計算機科學和生物信息學的交叉學科。本發明主要包括如下流程:搭建生物信息學分析的計算平臺,平臺作業系統安裝,平臺編譯器安裝,平臺應用軟體部署,平臺應用軟體測試,數據整理;通過本方法所述測試方法,使生物信息學計算平臺的測試標準,規範化,為生物信息學計算平臺的性能評估提供參考和依據。
【專利說明】一種生物信息學高性能計算平臺的測試方法
【技術領域】
[0001]本發明涉及屬於計算機科學和生物信息學的交叉學科,尤其涉及一種生物信息學高性能計算平臺的測試方法。
【背景技術】
[0002]生物信息學是是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。在基因組學研究方向,測序技術是重要的研究手段,對於測序數據的分析就需要藉助高性能計算平臺完成,因此高性能計算平臺的性能對生物信息學研究進展起著至關重要的作用,如何評測一套生物信息學平臺的性能如何,是很多生物信息學專家以及高性能計算專家面臨的問題。因為熟悉生物信息學的專家不熟悉具體的計算系統的配置,高性能計算專家對生物信息分析的流程和資源需求也知之甚少,所以發展一套標準化的生物信息學計算平臺測試方法十分必要。
【發明內容】
[0003]本發明針對現有技術的不足之處,提供了一種生物信息學高性能計算平臺的測試方法。
[0004]本發明所述生物信息學計算平臺的性能測試方法,之前沒有一種方法對生物信息學計算平臺進行標準化的測試和評估;沒有設置標準化測試平臺,軟體和運行算例,以及測試方法;本發明針對該現狀,整理了一套全面系統的測試方法,涵蓋硬體系統的配置,中間件的配置,系統層的性能測試以及應用層的性能測試.本發明公開了一種生物信息學高性能計算平臺的測試方法,其解決所述技術問題採用的技術方案如下:該測試方法依據生物信息學計算的需求,配置適合的硬體環境進行測試,測試中考慮系統性能是否正常,應用軟體以及算例的選擇是否具有生物信息學軟體的代表性,測試用例的壓力是否足夠大等,並最後給出固定平臺下的資源使用情況;
先確定適用於生物信息學平臺的硬體平臺,搭建測試環境,如安裝作業系統,系統中部署軟體,如intel編譯器,mpi等,安裝生物信息學軟體,選擇具有代表性的測試用例;其中,所述確定的硬體平臺使用於生物信息學的數據分析,生物信息學的計算需求一般內存容量消耗大,磁碟讀寫頻繁,且存儲佔用空間大等,依據這一特點我們選用了 128GB的內存容量,多塊盤做RAID0,存儲空間2TB,以滿足運算的需求;
所述搭建測試環境是指,在確定硬體配置後,在其上部署系統環境,安裝編譯器,並行環境等,並進行系統基礎性能測試,分別測試系統的Linpack效率,測試系統的內存帶寬,磁碟順序讀寫等;並對系統測試的指標進行分析,以確保系統性能正常,以便在穩定正常的系統環境下進行應用性能測試; 所述安裝生物信息學軟體是指,進行應用測試時,在搭建測試環境後,在系統中部署應用軟體,應用軟體是生物信息學分析常用軟體,且計算需求較高,計算耗時,具有代表性,在本發明中我們選用序列比對軟體BWA和序列拼接軟體VELVET進行測試;對於測試用例的的規模,要能涵蓋或是代表大部分用戶的生物信息分析的數據規模,我們選用ILLUMIA的測序數據進行分析;
選擇具有代表性的測試用例:統計兩款軟體在計算平臺下的運行時間,並監控資源消耗情況,最後整理出完成的測試信息。
[0005]本發明公開的生物信息學高性能計算平臺的測試方法的有益效果是:本方法所述測試環境適合生物信息學軟體運行,可以為用戶提供配置依據;對於測試平臺進行基本系統性能測試,確保測試環境正常;測試軟體選擇是生物信息學中常用且計算相對耗時的兩款軟體,在不同生物信息學研究中具有通用性;應用軟體的測試用例規模足夠大,是人類十倍覆蓋度的測試數據,數據規模基本能夠涵蓋目前生物信息學分析大部分計算規模。
【專利附圖】
【附圖說明】
[0006]附圖1為本發明測試方法的流程圖。
【具體實施方式】
[0007]下面通過附圖,對本發明所述一種生物信息學高性能計算平臺的測試方法做進一步詳細說明,並不造成對本發明的限制。
[0008]本發明的目的是設計一種生物信息學計算平臺的標準benchmark測試方法和流程,使生物信息學計算平臺的測試標準,規範化,為生物信息學計算平臺的性能評估提供參考和依據。
[0009]本發明的構思時這樣的:先確定適用於生物信息學平臺的硬體平臺,搭建測試環境,如安裝作業系統,系統中部署軟體,如intel編譯器,mpi等,安裝生物信息學軟體,選擇具有代表性的測試用例;其中,
所述確定的硬體平臺使用於生物信息學的數據分析,生物信息學的計算需求一般內存容量消耗大,磁碟讀寫頻繁,且存儲佔用空間大等,依據這一特點我們選用了 128GB的內存容量,多塊盤做RAID0,存儲空間2TB,以滿足運算的需求;
所述搭建測試環境是指,在確定硬體配置後,在其上部署系統環境,安裝編譯器,並行環境等,並進行系統基礎性能測試,分別測試系統的Linpack效率,測試系統的內存帶寬,磁碟順序讀寫等;並對系統測試的指標進行分析,以確保系統性能正常,以便在穩定正常的系統環境下進行應用性能測試;
所述安裝生物信息學軟體是指,進行應用測試時,在搭建測試環境後,在系統中部署應用軟體,應用軟體是生物信息學分析常用軟體,且計算需求較高,計算耗時,具有代表性,在本發明中我們選用序列比對軟體BWA和序列拼接軟體VELVET進行測試;對於測試用例的的規模,要能涵蓋或是代表大部分用戶的生物信息分析的數據規模,我們選用ILLUMIA的測序數據進行分析;
選擇具有代表性的測試用例:統計兩款軟體在計算平臺下的運行時間,並監控資源消耗情況,最後整理出完成的測試信息。[0010]為了使本發明的目的、技術方案和優勢更加清晰,我們給出具體的實施方式:
1)本次測試我們選擇一臺浪潮NF5280M3雙路計算節點,CPU選用INTELXeonE5-2670,配 8GB*16=128GB 內存,8 塊 300GB 磁碟做 RAID);
2)平臺環境配置:安裝RHEL6.3 Linux作業系統,安裝incomposer_xe_2013.3.163編譯器,intel mpi4.1.0.024,以及配置用戶環境;
3)平臺系統性能測試:安裝HPL,進行系統的Iinpack測試;編譯安裝stream,進行內存帶寬測試,使用DD進行磁碟順序讀寫性能測試;
4)系統性能數據分析,比較;系統性能測試值的高低需要參考官方數據,如出現偏低現象要進行調試,確保系統性能正常;
5)應用軟體部署,應用軟體我們選擇生物信息領域中計算量大,且常用的軟體,序列比對軟體 Burrows-Wheeler Aligner (BffA),序列拼接軟體 VELVET, indel, snp 查找軟體GATK (the Genome Analysis Tool Kit ;軟體編譯均使用INTEL編譯器完成;
6)應用性能測試,測試用例的選擇,BWA和VELVET的測試用例我們從ILLUMIA的下載,該用例是人類基因組的10倍覆蓋度的測試數據,下載地址:ftp://ftp.sra.eb1.ac.uk/voIl/fastq/ERR091/ERR091571
分別下載 ERR091571_1.fastq.gz 和 ERR091571_2.fastq.gz;
參考序列使用 GRCh37 (Genome Reference Consortium Human build 37);
測試數據整理,利用系統命令收集軟體運行中CPU,磁碟,內存使用情況,記錄程序運行的時間。
[0011]以上所述僅為本發明的實施例而已,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
【權利要求】
1.一種生物信息學高性能計算平臺的測試方法,其特徵在於,該測試方法依據生物信息學計算的需求,配置適合的硬體環境進行測試,測試中考慮系統性能是否正常,應用軟體以及算例的選擇是否具有生物信息學軟體的代表性,測試用例的壓力是否足夠大等,並最後給出固定平臺下的資源使用情況; 該方法主要包括確定適用於生物信息學平臺的硬體平臺,搭建測試環境,安裝生物信息學軟體,選擇具有代表性的測試用例。
2.根據權利要求1所述的生物信息學高性能計算平臺的測試方法,其特徵在於, 所述硬體平臺使用於生物信息學的數據分析,選用了 128GB的內存容量,多塊盤做RAIDO,存儲空間為2TB。
3.根據權利要求2所述的生物信息學高性能計算平臺的測試方法,其特徵在於,所述搭建測試環境是指,在確定硬體平臺配置後,在其上安裝作業系統,系統中部署軟體,安裝編譯器,並行環境。
4.根據權利要求3所述的生物信息學高性能計算平臺的測試方法,其特徵在於,所述系統中部署軟體包括intel編譯器、mpi。
5.根據權利要求3所述的生物信息學高性能計算平臺的測試方法,其特徵在於,所述安裝生物信息學軟體是指,在系統中部署應用軟體,選用序列比對軟體BWA和序列拼接軟體VELVET進行測試;對於測試用例的的規模,選用ILLUMIA的測序數據進行分析。
【文檔編號】G06F19/28GK103984882SQ201410196381
【公開日】2014年8月13日 申請日期:2014年5月12日 優先權日:2014年5月12日
【發明者】金蓮 申請人:浪潮電子信息產業股份有限公司