新四季網

一種基因序列數據的篩選方法

2023-04-29 08:11:46 2

專利名稱:一種基因序列數據的篩選方法
一種基因序列數據的篩選方法技術領域
本發明屬於應用生物信息學技術領域,尤其涉及一種基因序列數據篩選方法,主要應用於生物系統發育、生物條形碼、生物物種鑑定等相關領域的基因數據篩選和質量控制。
背景技術:
生物分子系統發育研究在不同水平和層次上依賴於對數據的使用從簡單的檢索到PCR汙染物的檢查,到尋找一個給定序列的類群同源性序列,到更全面的基於大量數據進行的類群和位點的數據挖掘(McMahon,Μ. Μ.,and Μ. J. Sanderson. 2006. 」 Phylogenetic supermatrix analysis of GenBank sequences from 2228papilionoid legumes". Syst. Biol. 55 :818-836 ;Ciccarelli, F. D. , Τ. Doerks, C. von Mering, C. J. Creevey, B. Sne 1, and P. Bork. 2006. "Toward automatic reconstruction of a highly resolved tree of life. Science 311 1283-1287 ;Bininda-Emonds, 0. R. P. , Μ. Cardillo, K.Ε. Jones, R. D. Ε. MacPhee, R. Μ. D. Beck, R. Grenyer, S. Α. Price, R. Α. Vos, J. L. Gittleman, and Α. Purvis. 2007. "The delayed rise ofpresent-day mammals". Nature 446 :507-512 ;Li, C. H. ,G. 0rti,G. Zhang,and G. Q. Lu. 2007.,,Apractical approach to phylogenomics :The phylogeny of ray-finned fish (Actinopterygii) as a casestudy" . BMC Evol.Biol.7 44 ;MICHAEL J.SANDERSON, 1 DARREN B0SS,et al.2008."ThePhyLoTA Browser processing GenBank for Molecular Phylogenetics Research", Syst.Biol. 57(3) :335-346.)。
分子生物學的早期研究積累了大量的基因序列數據。以國際核算序列資料庫 (International Nucleotide Sequence Database Collaboration, INSDC) t一的 GenBank 為例(Michael Y. Galperin.2011. "The Molecular Biology Database Collection 201 lupdaeNuc 1. Acids Res. 35 :D3_D4),截至 2010 年 9 月統計的數字,傳統的GenBank版本中在720,000, 000條序列紀錄中有75,000, 000, 000鹼基對數據;在WGS版本中有92,369,977,826鹼基對的海量數據。
與生物分子系統發育學相關的最重要的注釋是類群的名稱和基因或序列區域的名稱的注釋,但在其發布的數據中呈現明顯的問題,同時,其中還存在注釋錯誤或模糊、一條數據重複提交的問題(Vilgalys,R. 2003. 「Taxonomic misidentification in public DNA databases". New Phytol. 160 :4_5 ;McMahon,Μ. Μ. ,and Μ. J. Sanderson. 2006,Phylog enetic supermatrixanalysis of GenBank sequences from 2228papilionoid legumes". Syst. Biol. 55 :818-836.)。
即使從INSDC拿到的序列,不存在注釋錯誤的問題,但是其測序的質量卻不一定符合相關系統發育學研究的需要。如在BARCODE Data Standards v. 2. 3 (26March 2009) 中就建議做為潛在物種條形碼的序列是在測序中雙向覆蓋無N鹼基且序列譜圖文件的 PHRED scores 不能低於 40%。
所以,需要提供一種方法對現有基因序列數據進行篩選,擯棄注釋錯誤或模糊、測序精度參差的不符合後續挖掘要求的數據。隨後,當在已測公開數據中沒有找到符合條件的基因序列數據時進行補充測序。發明內容
從上面的分析可以看出,由於歷史數據積累的原因,基因序列數據存在注釋錯誤或模糊、測序精度參差不齊等質量問題,繼而導致無法正確構建系統發育樹的問題。本發明的目的在於提供一種基於注釋信息和同源性比對以及特定篩選序列片段相結合的基因序列數據篩選方法。
另外,由於基因序列數據篩選計算屬於數據密集型計算,篩選效率問題也是一個需要重點考慮的對象。
因此,本發明的基因序列數據篩選方法首先要解決基因序列數據的質量問題,進一步要提高目標基因序列數據集的篩選效率。本發明的基因序列數據篩選方法也可以作為自測數據的質量控制篩選方法。
本發明的基因序列數據篩選方法,其步驟包括
1)基於基因注釋信息的初始數據檢索得到數據集,並將其調整為.fasta的格式;
2)針對數據集中的每條序列進行N/R/K/M/S/Y/W/H/D/V/B含量的計算;
3)對數據集中的每條序列進行終止密碼子(TAG、TAA、TGA)或其它自定義序列串的檢測;
4)將數據集中的每條序列翻譯為蛋白序列,將它們與基因對應的模板蛋白序列進行相似性比對計算;
5)根據預設條件,綜合步驟2)、3)和4)的結果對每條序列進行評判,決定是否選取。
上述步驟中,步驟2)、3)、4)的執行順序可以互換或並列進行。
在步驟2),本發明通過對目標基因序列中N/R/K/M/S/Y/W/H/D/V/B含量的計算, 保證篩選者選取合適測序質量的序列。
本發明按照下面公式計算N/R/K/M/S/Y/W/H/D/V/B中任一種字符的含量γ π …Ni
Pi =-Nall
其中每種字符(N/R/K/M/S/Y/W/H/D/V/B)的含量為Pi,每條序列的字符總數為 Nall,字符 i 的個數為 Ni(i = N,R,K,Μ, S,Y,W, H,D,V 或 B)。字符 N,R,K,Μ, S,Y,W, H, D,V,B代表序列表中不確定的核苷酸殘基,其具體含義參見表1。
在步驟3),本發明通過終止密碼子(TAG、TAA、TGA)的檢測以排除目標基因序列是假基因序列的可能;通過自定義序列串的檢測以排除在各自研究領域內常見的汙染序列串或是引物去除不淨的序列等不希望出現的序列串。
本發明優選採用正反共6個閱讀框(正向3個、反向3個)的方式檢測基因序列中是否含有以上終止密碼子和自定義序列串。
本發明在步驟4)將待篩選序列與對應的模板蛋白序列進行相似性比對計算,得到一致性值(identity)和期望值(evalue,即Expectation value),以此作為去除注釋錯誤的非同源序列的依據。
本發明優選採用正反6個閱讀框(正向3個、反向3個)的方式將待篩選基因序列翻譯為蛋白序列,應用BLAST (Basic Local Alignment Search Tool)算法進行序列相似性比對。
考慮到各具體數據挖掘領域對數據精度要求的不同,在進行具體的基因序列篩選時,對步驟2)和步驟4)的計算結果,可以通過預設閥值來確定篩選範圍。例如,對於步驟 2)得到的各字符的含量Pi,設定Pi閾值(例如Pi 93%, evalue < 1. 0X 10_1(l),在步驟5)淘汰一致性和期望值不符合條件的序列。
在步驟幻,針對步驟2、,3)和4)的結果,根據預設的條件對序列進行取捨,通常所選取的序列應該同時滿足下述預設條件步驟幻的計算結果Pi符合所設定的閾值要求; 在步驟;3)檢測不到終止密碼子和不應具有的自定義序列串;步驟4)的計算結果符合設定的同源性要求。滿足預設條件的序列被選取,否則被淘汰。
為了進一步確保沒有出現漏篩或錯篩的情況,在步驟幻之後增加下列步驟
6)將各序列與已確定的同源基因序列進行多重序列比對,驗證序列同源與否,並將此同源性結果與步驟4)的結果進行比較。
為了提高篩選效率,本發明可以對步驟1)獲得的數據集中的序列進行分組並行處理,也就是說,在步驟1)之後首先依據文件塊大小對序列進行分組,然後檢測每組文件的頭和尾並做相應調整,以保證每一條fasta格式的基因序列被分到一個文件塊中;隨後對各文件塊並行進行步驟幻、3)、4)和幻的處理;最後將各文件塊的處理結果匯總。
上述並行處理可選用基於Map/Reduce的並行運算方式。將已經調整為.fasta格式的數據集輸入文件按大小切分成文件塊;然後檢測文件塊的頭尾並進行調整,使得每個文件塊中所包含的文件均為完整的fasta格式的文件;對每個文件塊再進行切分產生鍵值對,將鍵值對發送到Map計算節點;每個Map節點接收計算信息,進行步驟幻 幻的運算, 並產生結果發送到Reduce節點;Reduce節點接收Map輸出的結果信息並組織報告輸出。
本發明的基因序列數據的篩選方法克服了現有基因序列數據篩選時存在的注釋錯誤或模糊、測序精度參差不齊等質量問題。本發明的方法首先利用基因的注釋信息抽提初始數據集,然後通過逐條對基因序列進行N/R/K/M/S/Y/W/H/D/V/B含量計算、終止密碼子(TAG、TAA、TGA)以及汙染序列片段等(自定義序列串)的檢測、與模板蛋白的相似性計算,最後根據預設條件決定是否選取。進一步的,可將待篩選序列與同源基因序列進行相似性計算驗證所篩選出的序列的同源性。本方法可以用於生物系統發育、生物條形碼、生物物種鑑定等相關領域的基因數據篩選。


圖1是本發明具體實施方式
中基因序列數據篩選方法的工作流程圖2是具體實施方式
中針對陸地植物系統發育分析所需MatK基因序列數據進行並行篩選的流程圖。
具體實施方式
參見圖1,本具體實施方式
所述的基因序列數據篩選方法的具體過程為
A、基於基因注釋信息的初始數據檢索得到數據集並調整為.fasta的格式,接下來執行步驟B;
B、針對每條序列進行N/R/K/M/S/Y/W/H/D/V/B含量的計算,每種字符的含量為 Pi,設定閥值Pi < 1% (i = N,R,K,M,S,Y,W,H,D,V或B),接下來執行步驟C;
C、針對每條序列進行終止密碼子(TAG、TAA、TGA)和其它自定義序列串 (ACCCAGTCCATCT和GGAAATCTTGGTCC)的檢測,接下來執行步驟D ;
D、將每條序列與基因對應的模板蛋白序列進行相似性比對計算,設定閥值 Identities >93%,設定閥值 evalue (Expectation value) < 1. OXKT1 ,其中 Identities 指一致性,evalue指期望值,接下來執行步驟E ;
E、根據預設條件(閥值),綜合B、C、D的結果決定是否選取,並生成每條序列的結果報告,接下來執行步驟F;
F、將每條序列與已知的同源基因序列進行多重序列比對,驗證序列同源與否。
本具體實施方式
中的初始數據檢索通過調用NCBI的API得到,我們的檢索詞是(matk[Gene NameJAND 「 Embryophyta 「 [Organism])AND 「 ddbj embl genbank" [Filter],得到相關的數據集,並保存為fasta的格式。
本具體實施方式
中所述步驟B的具體過程為針對每條基因序列中的N/R/K/M/S/ Y/ff/H/D/V/Β字符數進行計數,然後與序列長度即此條序列的字符總數相除,得到各字符的含量Pi ;
本具體實施方式
中所述步驟C的具體過程為每條基因序列分為6個閱讀框(正向 3 個、反向 3 個)分別匹配檢索字符串 TAG、TAA、TGA, ACCCAGTCCATCT、GGAAATCTTGGTCC。
本具體實施方式
中所述步驟D的具體過程為首先每條待篩選基因序列分為6 個閱讀框先翻譯成蛋白質序列應用EMBOSS平臺(http://emboss, sourceforge.net/) 的transeq實現6個閱讀框的翻譯,其密碼子編碼使用標準密碼子(Mandard);然後分別選取6個閱讀框中蛋白質序列延伸最長的序列作為BLAST算法的輸入序列;應用 NCBIncbi-blast-2. 2. 22 版本(ftp://ftp. ncbi. nlm. nih. gov/blast/)運行 blastp,進行待篩選基因序列的翻譯蛋白和已測蛋白模板LIB之間的序列比對,設置閥值為Identities > 93% > evalue (Expectation value) < L OX ICT100
本具體實施方式
中的蛋白模板選取來自Swiss-Prot的此種基因對應的已測序蛋白序歹丨J (DBS0URCE UniProtKB =Iocus MATK_ANTLI, accession Q7YJG1 ;),然後格式轉化為 BLAST算法需要的LIB。
本具體實施方式
中所述步驟E的具體過程為根據預設閥值,綜合B U C U D的結果決定是否選取,其條件為(1)目標序列Pi 93% ;evalue < 1.0X10,。同時生成針對每條待篩選基因序列的報告,其報告內容定義如下表所示。
表 1
name每條基因序列的名字,如來自公共序列篩選為序列的「accession」Length基因序列長度score序列和模板蛋白的比對打分identities序列和模板蛋白的一致性(百分數表示)> 93%evalue序列和模板蛋白期望值< 1. OX1CT10Pn「N」字符在序列中的百分含量,N代表A/G/C/T任一鹼基■』< 1%Pr"R"字符在序列中的百分含量,R代表A/G任一鹼基;< 1%Pk「K」字符在序列中的百分含量,K代表G/T任一鹼基;< 1%Pm「M」字符在序列中的百分含量,M代表A/C任一鹼基;< 1%Ps「S」字符在序列中的百分含量,S代表G/C任一鹼基;< 1%Py「Y」字符在序列中的百分含量,Y代表c/τ任一鹼基;< 1%Pw「W」字符在序列中的百分含量,W代表A/T任一鹼基;< 1%Ph「H」字符在序列中的百分含量,H代表A/C/T任一鹼基;< 1%Pd「D」字符在序列中的百分含量,D代表A/G/T任一鹼基;< 1%
權利要求
1.一種基因序列數據的篩選方法,包括如下步驟1)基於基因注釋信息的初始數據檢索得到數據集,並將其調整為.fasta的格式;2)針對數據集中的每條序列進行N/R/K/M/S/Y/W/H/D/V/B各字符含量的計算;3)對數據集中的每條序列進行終止密碼子或自定義序列串的檢測;4)將數據集中的每條序列翻譯為蛋白序列,將它們與基因對應的模板蛋白序列進行相似性比對計算;5)根據預設條件,綜合步驟2)、3)和4)的結果對每條序列進行評判,決定是否選取。
2.如權利要求1所述的篩選方法,其特徵在於,步驟2)用Nall代表序列的字符總數, Ni代表該序列中字符i的個數,其中i指N,R,K,M,S,Y,W,H,D,V或B,則字符i的含量PiNi為= 步驟5)淘汰Pi高於預設閾值的序列。 Nall
3.如權利要求2所述的篩選方法,其特徵在於,步驟5)所選取的序列各字符含量Pi < 1%,其中 i 指 N,R,K,M,S,Y,W,H,D,V 或 B。
4.如權利要求1所述的篩選方法,其特徵在於,步驟3)所述終止密碼子是指TAG、TAA 和TGA,採用正向3個、反向3個共6個閱讀框的方式檢測序列中是否含有終止密碼子和自定義序列串;步驟幻淘汰含有終止密碼子和不希望出現的自定義序列串的序列。
5.如權利要求1所述的篩選方法,其特徵在於,步驟4)採用正向3個、反向3個共6個閱讀框的方式將待篩選基因序列翻譯為蛋白序列,再應用BLAST算法將其與對應的模板蛋白序列進行序列相似性比對,獲得序列的一致性值和期望值;步驟幻淘汰一致性值和期望值不符合預設條件的序列。
6.如權利要求5所述的篩選方法,其特徵在於,步驟幻所選取的序列一致性>93%, 期望值< 1.0X10,。
7.如權利要求1所述的篩選方法,其特徵在於,在步驟5)之後增加下列步驟6)將各序列與已確定的同源基因序列進行多重序列比對,驗證序列同源與否,並將此同源性結果與步驟4)的結果進行比較。
8.如權利要求1所述的篩選方法,其特徵在於,對步驟1)獲得的數據集中的序列文件進行分組,然後各組並列進行步驟幻 5)的處理,最後將處理結果匯總。
9.如權利要求8所述的篩選方法,其特徵在於,採用基於Map/Reduce的並行運算方式對數據集中的序列進行並行處理。
10.如權利要求9所述的篩選方法,其特徵在於,將已經調整為.fasta格式的數據集輸入文件按大小切分成文件塊;然後檢測文件塊的頭尾並進行調整,使得每個文件塊中所包含的文件均為完整的fasta格式的文件;對每個文件塊再進行切分產生鍵值對,將鍵值對發送到Map計算節點;每個Map節點接收計算信息,進行步驟2) 5)的運算,並產生結果發送到Reduce節點;Reduce節點接收Map輸出的結果信息並組織報告輸出。
全文摘要
本發明公開了一種基因序列數據的篩選方法。首先利用基因的注釋信息抽提初始數據集,然後逐條對基因序列進行N/R/K/M/S/Y/W/H/D/V/B的含量計算、終止密碼子和自定義序列串(如汙染序列片段)的檢測、與模板蛋白的相似性計算,根據預設條件決定是否選取。該方法克服了現有基因序列數據篩選時存在的注釋錯誤或模糊、測序精度參差不齊等質量問題繼而導致無法正確構建系統發育樹的問題,可以用於生物系統發育、生物條形碼、生物物種鑑定等相關領域的基因數據篩選。
文檔編號G06F19/22GK102521528SQ20111040012
公開日2012年6月27日 申請日期2011年12月5日 優先權日2011年12月5日
發明者周園春, 孟珍, 黎建輝 申請人:中國科學院計算機網絡信息中心

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀