新四季網

一種生物信息學高性能計算平臺的測試方法

2023-05-23 13:35:16

一種生物信息學高性能計算平臺的測試方法
【專利摘要】本發明提出了一種生物信息學高性能計算平臺的測試方法,屬於計算機科學和生物信息學的交叉學科。本發明主要包括如下流程:搭建生物信息學分析的計算平臺,平臺作業系統安裝,平臺編譯器安裝,平臺應用軟體部署,平臺應用軟體測試,數據整理;通過本方法所述測試方法,使生物信息學計算平臺的測試標準,規範化,為生物信息學計算平臺的性能評估提供參考和依據。
【專利說明】一種生物信息學高性能計算平臺的測試方法
【技術領域】
[0001]本發明涉及屬於計算機科學和生物信息學的交叉學科,尤其涉及一種生物信息學高性能計算平臺的測試方法。
【背景技術】
[0002]生物信息學是是在生命科學的研究中,以計算機為工具對生物信息進行儲存、檢索和分析的科學。它是當今生命科學和自然科學的重大前沿領域之一,同時也將是21世紀自然科學的核心領域之一。其研究重點主要體現在基因組學(Genomics)和蛋白質組學(Proteomics)兩方面,具體說就是從核酸和蛋白質序列出發,分析序列中表達的結構功能的生物信息。在基因組學研究方向,測序技術是重要的研究手段,對於測序數據的分析就需要藉助高性能計算平臺完成,因此高性能計算平臺的性能對生物信息學研究進展起著至關重要的作用,如何評測一套生物信息學平臺的性能如何,是很多生物信息學專家以及高性能計算專家面臨的問題。因為熟悉生物信息學的專家不熟悉具體的計算系統的配置,高性能計算專家對生物信息分析的流程和資源需求也知之甚少,所以發展一套標準化的生物信息學計算平臺測試方法十分必要。

【發明內容】

[0003]本發明針對現有技術的不足之處,提供了一種生物信息學高性能計算平臺的測試方法。
[0004]本發明所述生物信息學計算平臺的性能測試方法,之前沒有一種方法對生物信息學計算平臺進行標準化的測試和評估;沒有設置標準化測試平臺,軟體和運行算例,以及測試方法;本發明針對該現狀,整理了一套全面系統的測試方法,涵蓋硬體系統的配置,中間件的配置,系統層的性能測試以及應用層的性能測試.本發明公開了一種生物信息學高性能計算平臺的測試方法,其解決所述技術問題採用的技術方案如下:該測試方法依據生物信息學計算的需求,配置適合的硬體環境進行測試,測試中考慮系統性能是否正常,應用軟體以及算例的選擇是否具有生物信息學軟體的代表性,測試用例的壓力是否足夠大等,並最後給出固定平臺下的資源使用情況;
先確定適用於生物信息學平臺的硬體平臺,搭建測試環境,如安裝作業系統,系統中部署軟體,如intel編譯器,mpi等,安裝生物信息學軟體,選擇具有代表性的測試用例;其中,所述確定的硬體平臺使用於生物信息學的數據分析,生物信息學的計算需求一般內存容量消耗大,磁碟讀寫頻繁,且存儲佔用空間大等,依據這一特點我們選用了 128GB的內存容量,多塊盤做RAID0,存儲空間2TB,以滿足運算的需求;
所述搭建測試環境是指,在確定硬體配置後,在其上部署系統環境,安裝編譯器,並行環境等,並進行系統基礎性能測試,分別測試系統的Linpack效率,測試系統的內存帶寬,磁碟順序讀寫等;並對系統測試的指標進行分析,以確保系統性能正常,以便在穩定正常的系統環境下進行應用性能測試; 所述安裝生物信息學軟體是指,進行應用測試時,在搭建測試環境後,在系統中部署應用軟體,應用軟體是生物信息學分析常用軟體,且計算需求較高,計算耗時,具有代表性,在本發明中我們選用序列比對軟體BWA和序列拼接軟體VELVET進行測試;對於測試用例的的規模,要能涵蓋或是代表大部分用戶的生物信息分析的數據規模,我們選用ILLUMIA的測序數據進行分析;
選擇具有代表性的測試用例:統計兩款軟體在計算平臺下的運行時間,並監控資源消耗情況,最後整理出完成的測試信息。
[0005]本發明公開的生物信息學高性能計算平臺的測試方法的有益效果是:本方法所述測試環境適合生物信息學軟體運行,可以為用戶提供配置依據;對於測試平臺進行基本系統性能測試,確保測試環境正常;測試軟體選擇是生物信息學中常用且計算相對耗時的兩款軟體,在不同生物信息學研究中具有通用性;應用軟體的測試用例規模足夠大,是人類十倍覆蓋度的測試數據,數據規模基本能夠涵蓋目前生物信息學分析大部分計算規模。
【專利附圖】

【附圖說明】
[0006]附圖1為本發明測試方法的流程圖。
【具體實施方式】
[0007]下面通過附圖,對本發明所述一種生物信息學高性能計算平臺的測試方法做進一步詳細說明,並不造成對本發明的限制。
[0008]本發明的目的是設計一種生物信息學計算平臺的標準benchmark測試方法和流程,使生物信息學計算平臺的測試標準,規範化,為生物信息學計算平臺的性能評估提供參考和依據。
[0009]本發明的構思時這樣的:先確定適用於生物信息學平臺的硬體平臺,搭建測試環境,如安裝作業系統,系統中部署軟體,如intel編譯器,mpi等,安裝生物信息學軟體,選擇具有代表性的測試用例;其中,
所述確定的硬體平臺使用於生物信息學的數據分析,生物信息學的計算需求一般內存容量消耗大,磁碟讀寫頻繁,且存儲佔用空間大等,依據這一特點我們選用了 128GB的內存容量,多塊盤做RAID0,存儲空間2TB,以滿足運算的需求;
所述搭建測試環境是指,在確定硬體配置後,在其上部署系統環境,安裝編譯器,並行環境等,並進行系統基礎性能測試,分別測試系統的Linpack效率,測試系統的內存帶寬,磁碟順序讀寫等;並對系統測試的指標進行分析,以確保系統性能正常,以便在穩定正常的系統環境下進行應用性能測試;
所述安裝生物信息學軟體是指,進行應用測試時,在搭建測試環境後,在系統中部署應用軟體,應用軟體是生物信息學分析常用軟體,且計算需求較高,計算耗時,具有代表性,在本發明中我們選用序列比對軟體BWA和序列拼接軟體VELVET進行測試;對於測試用例的的規模,要能涵蓋或是代表大部分用戶的生物信息分析的數據規模,我們選用ILLUMIA的測序數據進行分析;
選擇具有代表性的測試用例:統計兩款軟體在計算平臺下的運行時間,並監控資源消耗情況,最後整理出完成的測試信息。[0010]為了使本發明的目的、技術方案和優勢更加清晰,我們給出具體的實施方式:
1)本次測試我們選擇一臺浪潮NF5280M3雙路計算節點,CPU選用INTELXeonE5-2670,配 8GB*16=128GB 內存,8 塊 300GB 磁碟做 RAID);
2)平臺環境配置:安裝RHEL6.3 Linux作業系統,安裝incomposer_xe_2013.3.163編譯器,intel mpi4.1.0.024,以及配置用戶環境;
3)平臺系統性能測試:安裝HPL,進行系統的Iinpack測試;編譯安裝stream,進行內存帶寬測試,使用DD進行磁碟順序讀寫性能測試;
4)系統性能數據分析,比較;系統性能測試值的高低需要參考官方數據,如出現偏低現象要進行調試,確保系統性能正常;
5)應用軟體部署,應用軟體我們選擇生物信息領域中計算量大,且常用的軟體,序列比對軟體 Burrows-Wheeler Aligner (BffA),序列拼接軟體 VELVET, indel, snp 查找軟體GATK (the Genome Analysis Tool Kit ;軟體編譯均使用INTEL編譯器完成;
6)應用性能測試,測試用例的選擇,BWA和VELVET的測試用例我們從ILLUMIA的下載,該用例是人類基因組的10倍覆蓋度的測試數據,下載地址:ftp://ftp.sra.eb1.ac.uk/voIl/fastq/ERR091/ERR091571
分別下載 ERR091571_1.fastq.gz 和 ERR091571_2.fastq.gz;
參考序列使用 GRCh37 (Genome Reference Consortium Human build 37);
測試數據整理,利用系統命令收集軟體運行中CPU,磁碟,內存使用情況,記錄程序運行的時間。
[0011]以上所述僅為本發明的實施例而已,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
【權利要求】
1.一種生物信息學高性能計算平臺的測試方法,其特徵在於,該測試方法依據生物信息學計算的需求,配置適合的硬體環境進行測試,測試中考慮系統性能是否正常,應用軟體以及算例的選擇是否具有生物信息學軟體的代表性,測試用例的壓力是否足夠大等,並最後給出固定平臺下的資源使用情況; 該方法主要包括確定適用於生物信息學平臺的硬體平臺,搭建測試環境,安裝生物信息學軟體,選擇具有代表性的測試用例。
2.根據權利要求1所述的生物信息學高性能計算平臺的測試方法,其特徵在於, 所述硬體平臺使用於生物信息學的數據分析,選用了 128GB的內存容量,多塊盤做RAIDO,存儲空間為2TB。
3.根據權利要求2所述的生物信息學高性能計算平臺的測試方法,其特徵在於,所述搭建測試環境是指,在確定硬體平臺配置後,在其上安裝作業系統,系統中部署軟體,安裝編譯器,並行環境。
4.根據權利要求3所述的生物信息學高性能計算平臺的測試方法,其特徵在於,所述系統中部署軟體包括intel編譯器、mpi。
5.根據權利要求3所述的生物信息學高性能計算平臺的測試方法,其特徵在於,所述安裝生物信息學軟體是指,在系統中部署應用軟體,選用序列比對軟體BWA和序列拼接軟體VELVET進行測試;對於測試用例的的規模,選用ILLUMIA的測序數據進行分析。
【文檔編號】G06F19/28GK103984882SQ201410196381
【公開日】2014年8月13日 申請日期:2014年5月12日 優先權日:2014年5月12日
【發明者】金蓮 申請人:浪潮電子信息產業股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀