一種ssr分子標記冗餘性的生物信息學分析方法
2023-09-21 22:33:20 1
專利名稱:一種ssr分子標記冗餘性的生物信息學分析方法
技術領域:
本發明涉及分子生物技術領域和計算機技術領域,尤其涉及一種SSR分子標記冗餘性的生物信息學分析方法。
背景技術:
SSR(Simple Sequence Repeat)作為重要的分子標記已經廣泛應用於遺傳圖譜加密、基因定位、基因發掘、遺傳多樣性分析和分子標記輔助選擇育種等研究方面。不同研究者由於不同的研究目的,從公共資料庫中的序列和自有序列中開發的SSR標記可能存在冗餘性,這樣大大增加了研究的工作量。為了減少研究的重複性,降低經濟成本,需要有相關工具去發掘冗餘引物。目前,有一些軟體可以分析序列的冗餘性,比如BLASTclust (BLAST包,http://blast.ncbi. nlm. nih. gov/Blast. cgi ? CMD = ffeb&PAGE_TYPE = BlastDocs&DOC TYPE = Download)、 CD-HIT(http://www. bioinformatics. org/project/filelist. php ? group_id = 350)禾口 seqmatchall (EMBOSS 包,http://emboss, sourceforge. net/)。這些程序只能分析一對引物的正向或反向引物,不能同時分析一對引物是否冗餘,而seqmatchall不能分析序列的反向互補序列,所以沒有合適的軟體分析一對引物的冗餘性。對SSR研究熱度現在處於上升趨勢,對SSR標記中的冗餘性分析也勢在必行,目前沒有相關程序分析SSR分析標記。
發明內容
針對以上問題開發了 SSR分子標記冗餘性大規模分析的方法,方便研究者充分利用網絡資源,同時提高研究者的工作效率,為進一步生物學研究奠定基礎。具體是本發明提供一種SSR分子標記冗餘性的生物信息學分析方法。一種SSR分子標記冗餘性的生物信息學分析方法,包括以下步驟Al,下載公共資料庫中的相關SSR分子標記或者自己開發的SSR分子標記;A2,對腳本進行預處理,轉化成FASTA格式;A3,把處理好的FASTA文件備份一個文件,後綴名為「.bk",使用該備份文件作為輸入,對各個物種的SSR分子標記分別比對,查詢相似性序列;A4,從A3得到的結果中按照相似匹配分值不低於81%同時沒有gap過濾一對引物,然後提取相似引物編號;A5,把所有相似引物寫入一行,輸出最終結果文件out. list。所述的生物信息學分析方法,步驟A4利用eXtr_ps2. pi腳本從A3得到的結果中按照相似匹配分值不低於81%同時沒有gap過濾一對引物,然後提取相似引物編號;匹配分值計算公式如下
權利要求
1.一種SSR分子標記冗餘性的生物信息學分析方法,其特徵在於,包括以下步驟 Al,下載公共資料庫中的相關SSR分子標記或者自己開發的SSR分子標記;A2,對所述SSR分子標記進行預處理,轉化成FASTA格式;A3,把處理好的FASTA文件備份一個文件,使用該備份文件作為輸入,對各個物種的 SSR分子標記分別比對,查詢相似性序列;A4,從A3得到的結果中按照相似匹配分值不低於81% ;同時沒有gap;來過濾一對引物,然後提取相似引物編號;A5,把所有相似引物寫入一行,輸出最終結果文件out. list。
2.根據權利要求1所述的生物信息學分析方法,其特徵在於,步驟A4中匹配分值計算公式如下S 匹配分值;a 查詢序列和目標序列匹配上的序列長度(bp) ;1 目標序列長度(bp); m:錯配個數。
全文摘要
本發明公開了一種SSR分子標記冗餘性的生物信息學分析方法,包括以下步驟A1,下載公共資料庫中的相關SSR分子標記或者自己開發的SSR分子標記;A2,對所述SSR分子標記進行預處理,轉化成FASTA格式;A3,把處理好的FASTA文件備份一個文件,後綴名為「.bk」,使用該備份文件作為輸入,對各個物種的SSR分子標記分別比對,查詢相似性序列;A4,從A3得到的結果中按照相似匹配分值不低於81%;同時沒有gap;來過濾一對引物,然後提取相似引物編號;A5,把所有相似引物寫入一行,輸出最終結果文件out.list。同一研究者開發時間不同造成在同一物種中開發的SSR分子標記存在有冗餘,利用本發明的方法可以達到去冗餘的目的。
文檔編號C12Q1/68GK102156824SQ20101060158
公開日2011年8月17日 申請日期2010年12月23日 優先權日2010年12月23日
發明者吳慎傑, 姚景珍, 李朋波, 楊六六, 王為, 王長彪, 董哲生 申請人:山西省農業科學院棉花研究所