新四季網

一種組裝葉綠體基因組序列的方法

2023-06-21 01:58:16

一種組裝葉綠體基因組序列的方法
【專利摘要】本發明公開了一種組裝葉綠體基因組序列的方法,不需要專門分離葉綠體,通過利用新一代測序技術對樣品進行測序,根據參考葉綠體基因組序列篩選能mapping到參考基因組的Reads,對篩選獲得的Reads進行多個kmer組裝,構建Contigs,Contigs序列與參考葉綠體基因組序列比對並排序,選擇一個kmer的組裝排序結果為主,按照排序結果實現序列的延伸,合併頭部和尾部多出部分序列的疊加區域,獲得參考組裝葉綠體基因組完整序列。本發明方法直接利用NGS基因組測序數據進行DeNovo組裝以獲得完整葉綠體基因組序列,自身形成了有效的組裝和驗證的閉環,可以對組裝序列的質量進行評價判斷。
【專利說明】一種組裝葉綠體基因組序列的方法

【技術領域】
[0001]本發明屬於生物信息【技術領域】,具體涉及一種組裝葉綠體基因組序列的方法。

【背景技術】
[0002]如3基因組測序0^6X1: 661161-81:1011 36(^116110111?),是相對於傳統的桑格測序(8811861- 86^1161101118)而言的新一代通量和效率都更高的0嫩測序方法。公司的(?
測序系統、八81 公司 0^1)116(1 8108781:61118)的 30110 測序平臺、111111111113 公司的 3016X8測序平臺,是目前世界上領先的如3測序平臺,相對於傳統的桑格測序,均具有更高的通量,但又各具有不同的優缺點。⑶測序在讀長上的優勢明顯,讀長超過400鹼基時,其準確性仍能達到99%以上,但成本和通量的劣勢已讓其在如3競爭中受到限制,30110最大的優勢是高準確率,準確率高達99.99%,而3016似測序的優勢則是其極高的通量和相對較低的成本,目前已在如3競爭中得到快速壯大,產出大量的測序數據,但測序片段的讀長一般較短,僅數十鹼基到150鹼基,是其不足。
[0003]一個生物性狀歸根結底是由遺傳決定的,遺傳的本源則是其完整的基因組序列,包括核基因組和伴隨的細胞器基因組(線粒體和/或葉綠體)序列。解讀出完整的序列並進行比較研宄,是準確研宄系統進化,發掘基因功能的更有效而可靠的手段。但完整的基因組序列非常大,即使是較小的線粒體和葉綠體序列也遠大於如3測序產生的片段長度,動物線粒體基因組序列一般長約15-23?,植物的葉綠體基因組序列則一般長約為130-150^0儘管已有眾多頂尖科研機構和人員進行大量研宄,目前由大量測序小片段準確組裝出較大的大片段已獲得不少進步,但仍然極為困難,組裝獲得較大的完整基因組,尤其是核基因組就更為困難。
[0004]線粒體和葉綠體的基因組相對較小,如果分離獲得純淨的線粒體和葉綠體進行如3測序,目前一般已能組裝獲得完整的基因組序列,但其分離和純化的設備要求高、難度大,而且費時費錢費力。如果能從目前已大量產生的混合基因組重測序數據中,分離和組裝獲得完整的線粒體和葉綠體基因組序列,則將極大地降低成本,推動相關研宄。


【發明內容】

[0005]針對現有技術存在的缺陷,本發明旨在提供一種組裝葉綠體基因組序列的方法,本發明提出的組裝方法自身形成了有效的組裝和驗證的閉環,可以對組裝序列的質量進行評價判斷。
[0006]本發明方法具體通過以下技術方案實現:
[0007]一種組裝葉綠體基因組序列的方法,包括以下步驟:
[0008]1)利用如3測序技術對樣品進行測序;
[0009]2)根據參考葉綠體基因組序列篩選能胍卯1118到參考基因組的0621(18 ;
[0010]3)對篩選獲得的0651(18進行多個組裝,構建03111:188 ;
[0011]4)序列與參考葉綠體基因組序列比對並排序;
[0012]5)選擇一個匕虹的組裝排序結果為主,按照排序結果提取比對上的疊連群序列並按同一序列方向排列序列,根據前後序列的疊加區域實現序列的延伸;
[0013]6)對出現的空隙區域序列進行填補和延伸;
[0014]7)合併頭部和尾部多出部分序列的疊加區域,獲得組裝葉綠體基因組完整序列;
[0015]8)以組裝葉綠體基因組序列為參考,重複步驟(1)?(7)過程,獲得新組裝序列;
[0016]9)對參考組裝葉綠體基因組和新組裝序列進行序列比對分析,對差異區域進行檢視,判定其來源和可靠性,獲得樣本的最終葉綠體基因組序列。
[0017]進一步的,
[0018]步驟(1)樣本不需要專門分離葉綠體,測序採用模式建庫測序,測序長度為100恥或以上,樣本單倍基因組覆蓋10倍或以上。
[0019]步驟(2)選擇與樣本親緣關係較近的物種的葉綠體基因組序列為參考。
[0020]步驟(4)具體為以參考葉綠體基因組序列為目標序列,組裝疊連群序列為詢問序列,相似度設為60%,進行序列比對,篩選獲得能比對上的疊連群序列,並對比對上的疊連群序列編號按照參考葉綠體基因組序列進行排序。
[0021]步驟(5)中選擇'較大的組裝排序結果,參照排序結果提取比對上的疊連群序列,並使所有序列均按照同一方向排列,根據前後序列的疊加區域實現序列的延伸。
[0022]步驟(6)對不能順利延伸而出現的空隙區域,搜尋其它如161'組裝中相同或相近位置的互補序列,將互補序列按(5)中提到的方法進行操作,完成空隙區域序列的延伸。
[0023]步驟(7)以參考葉綠體基因組的頭部為起始,將組裝序列的頭部以前序列搬到尾部,搜尋疊加區域,合併頭部和尾部序列,獲得組裝葉綠體基因組完整序列。
[0024]本發明不需要對葉綠體基因組進行分離和純化,直接利用如3基因組測序數據進行0洲叭0組裝以獲得完整葉綠體基因組序列,進而實現對葉綠體基因組全部序列結構和變化的研宄;本發明提出的組裝方法自身形成了有效的組裝和驗證的閉環,可以對組裝序列的質量進行評價判斷。

【具體實施方式】
[0025]下面結合實施例對本發明做進一步的說明,以下所述,僅是對本發明的較佳實施例而已,並非對本發明做其他形式的限制,任何熟悉本專業的技術人員可能利用上述揭示的技術內容加以變更為同等變化的等效實施例。凡是未脫離本發明方案內容,依據本發明的技術實質對以下實施例所做的任何簡單修改或等同變化,均落在本發明的保護範圍內。
[0026]採用本發明技術方案,基於我們的重測序的甜橙數據,我們已組裝獲得了重測序甜橙的完整葉綠體序列,並對不同重測序甜橙的葉綠體基因組進行了比較研宄。
[0027]實施例1
[0028]1、重測序甜橙的數據。
[0029]我們的甜橙重測序由1111111111121公司的!II86(^2000測序平臺完成,採用¢£111-611(1模式建庫測序,測序讀長為100如,共獲得約2553萬,總數據量約5.1匕大約覆蓋柑桔單倍基因組14倍。
[0030]即匕-一仏模式建庫測序可以在後續的組裝分析中進行理論覆蓋度的計算,為通過覆蓋度的差異進行少數相同區位的相似序列取捨提供依據。
[0031]2、參考基因組序列的獲得和測序1^21(18的篩選。
[0032]採用已發表的甜橙葉綠體基因組序列16,^0,166 88, ^118611 0^11161 1 11(2006) 丁116 001111)161:6 011101-01)1881: ^61101116 86^1161106 0? 011: 118
8111611818 (1..) 08)360^^1(1^6 ? 11 6 ?: 0X^3,1112 3,11011 811(1 ^11710^6116^ 1 ^
1-61^1:101181111)8 1:0 01:1161~ 811^108^61-1118.810811 6: 21)作為參考基因組序列,該序列可從網上下載。我們採用胍卯1118軟體80被162從測序數據中篩選能胍卯丨!18到參考基因組的0621(18,生成一個胍卯1118 ^621(18的文件,如對奉節951臍橙篩選葉綠體序列形成01)81^611^^16951.8肅文件。
[0033]3、篩選 1^68(18 的組裝。
[0034]我們採用76~的短序列組裝軟體對篩選獲得的進行多個匕虹組裝。選了63,73,83和93共計4個進行組裝,每個均能組裝構建一組以下是我們對奉節951臍橙篩選葉綠體序列進行組裝的程序:
[0035]/1101116/131-66(1111^ / V 6 1 V 6 1: / ^61^61:11/1101116/131-66(1111^ / 七68七63,95,10-88111-81101-1:^811-6(1/1101116/131-66(1111^/1:6111/0^)81^611^^16951.88111
[0036]/1101116/131-6 6(1111^/^6^61:/^6^61:^/1101116/131-66(1111^/1: 6 8 1:^9 3 ~0 0 ^^0111: 0

400—6X0—00乂 8111:0
[0037]00111:1^8序列與參考葉綠體基因組序列比對並排序。
[0038]採用2x01161^1:6序列比對軟體對各組03111:188序列與參考葉綠體基因組序列進行比對,篩選出能比對上的0)1^188。根據參考葉綠體基因組序列先後順序對比對上的各組00111:188序列進行排序。
[0039]以下載的測序甜橙葉綠體基因組序列為目標序列,構建的疊連群序列,如奉節951臍橙1^1161*93的^6118^16951^93.為詢問序列,相似度設為60%,進行序列比對,獲得序列比對文件。
[0040]以下是對奉節951臍橙序列進行比對的程序:
[0041]6X01161'&1:6——1110(161 8^^1116: 100&1——061X6111: 60——^116^7/1101116/131-6 6(1111^/
101-01)1881:/^611^^16951^93.——1:81-^61:/1101116/131-66(1111^/811817818/0^101-01)1881:^01-
811^6.^8)/1101116/131-66(1111^/0^101-01)1881:/00111^01)81^611^^16951-601)61-06 111:93
[0042]根據參考葉綠體基因組序列順序,對獲得的奉節951臍橙^611^^16951-601)61-06111:93比對上的序列進行排序。
[0043]5、序列的拼接延伸。
[0044]選擇一個匕虹的組裝排序結果為主,按照排序結果提取比對上的疊連群序列並按同一序列方向排列序列,根據前後序列的疊加區域實現序列的延伸。
[0045]—般選擇如161'較大的組裝排序結果可以減少延伸排序中的工作量。在我們的操作中選擇了如161~ 93中比對上的序列優先進行序列排列和延伸。按照排序結果提取比對上的疊連群內序列,將序列拷貝到101x1等文字處理工具中,如果所組裝的序列與參考葉綠體基因組相反,需要將該部分序列進行反向重複處理,使得所有序列均按照同一方向排列;根據前後序列的疊加區域實現序列的延伸。
[0046]6、對可能出現的空隙區域序列進行填補和延伸。
[0047]不同―虹的組裝都有可能出現空隙區域,但這些空隙區域在不同的組裝中一般能找到互補的序列,將互補序列按(5)中提到的方法進行操作,完成空隙區域序列的延伸。
[0048]在我們對奉節951臍橙1^61*93進行序列的拼接延伸時,就出現了 4個比較大的空隙,通過對-6163和1^161*83組裝中相近或相似區域的搜尋,找到了互補的序列,順利完成了空隙區域序列的延伸。
[0049]7、合併頭部和尾部多出部分序列的疊加區域,獲得參考組裝葉綠體基因組完整序列。
[0050]葉綠體基因組序列為環狀0嫩,在初步完成的組裝中一般會出現頭部和/或尾部多出或少掉部分序列的現象,需要根據參考葉綠體基因組的頭部以及本組裝的頭部和尾部多出部分序列的疊加區域,合併多出序列,獲得新組裝葉綠體基因組的完整序列。
[0051]相比於發表的甜橙葉綠體基因組序列,我們初步組裝獲得的奉節951臍橙葉綠體基因組全序列的長度為160204如,頭部多出來88個鹼基,尾部4個鹼基。將頭部多出部分序列搬到尾部,發現疊加區域,合併多出序列,獲得新組裝葉綠體基因組的完整序列,其長度為 160112^0
[0052]8、以新組裝葉綠體基因組序列為參考,按照前述程序1-7步驟進行再一輪組裝過程。
[0053]根據參考葉綠體基因組序列進行組裝時,如果參考葉綠體基因組與待組裝樣本存在較大差異時,可能存在少部分序列難以判定的問題,通過以首輪組裝葉綠體基因組序列為參考,按照前述程序進行再一輪組裝過程,可以獲得更準確的組裝。
[0054]對獲得的奉節951臍橙新組裝葉綠體全序列進行再組裝。
[0055]9、獲得樣本的最終葉綠體基因組序列
[0056]利用開源序列比對軟體2X0:161'社6,以再組裝葉綠體基因組序列為目標序列,首輪組裝序列為詢問序列,相似度設為60%,再進行序列比對,對差異區域進行檢視,判定其來源和可靠性,消除操作失誤等可能帶來的錯誤,獲得樣本的最終葉綠體基因組序列。
[0057]對獲得的奉節951臍橙再組裝葉綠體全序列,與第7步獲得的新組裝葉綠體以及發表的甜橙葉綠體基因組序列進行比較分析,發現再組裝葉綠體全序列與第7步獲得新組裝葉綠體完全一致,與發表的甜橙葉綠體基因組序列16012%?,存在長度上的少量差異以及序列上的部分單核苷酸位點差異和插入缺失差異。
【權利要求】
1.一種組裝葉綠體基因組序列的方法,其特徵在於,包括以下步驟: 1)利用NGS測序技術對樣品進行測序; 2)根據參考葉綠體基因組序列篩選能mapping到參考基因組的Reads; 3)對篩選獲得的Reads進行多個kmer組裝,構建Contigs; 4)Contigs序列與參考葉綠體基因組序列比對並排序; 5)選擇一個kmer的組裝排序結果為主,按照排序結果提取比對上的疊連群序列並按同一序列方向排列序列,根據前後序列的疊加區域實現序列的延伸; 6)對出現的空隙區域序列進行填補和延伸; 7)合併頭部和尾部多出部分序列的疊加區域,獲得組裝葉綠體基因組完整序列; 8)以組裝葉綠體基因組序列為參考,重複步驟(I)?(7)過程,獲得新組裝序列; 9)對參考組裝葉綠體基因組和新組裝序列進行序列比對分析,對差異區域進行檢視,判定其來源和可靠性,獲得樣本的最終葉綠體基因組序列。
2.根據權利要求1所述的組裝葉綠體基因組序列的方法,其特徵在於:步驟(I)樣本不需要分離葉綠體,測序採用pair-end模式建庫測序,測序長度為10bp或以上,樣本單倍基因組覆蓋10倍或以上。
3.根據權利要求1所述的組裝葉綠體基因組序列的方法,其特徵在於:步驟(2)選擇與樣本親緣關係較近的物種的葉綠體基因組序列為參考。
4.根據權利要求1所述的組裝葉綠體基因組序列的方法,其特徵在於:步驟(4)具體為以參考葉綠體基因組序列為目標序列,組裝疊連群序列為詢問序列,相似度設為60%,進行序列比對,篩選獲得能比對上的疊連群序列,並對比對上的疊連群序列編號按照參考葉綠體基因組序列進彳丁排序。
5.根據權利要求1所述的組裝葉綠體基因組序列的方法,其特徵在於:步驟(5)中選擇kmer較大的組裝排序結果,照排序結果提取比對上的疊連群序列,並使所有序列均按照同一方向排列,根據前後序列的疊加區域實現序列的延伸。
6.根據權利要求1所述的組裝葉綠體基因組序列的方法,其特徵在於:步驟(6)具體為對不能順利延伸而出現的空隙區域,搜尋其它kmer組裝中相同或相近位置的互補序列,將互補序列按步驟(5)操作,完成空隙區域序列的延伸。
7.根據權利要求1所述的組裝葉綠體基因組序列的方法,其特徵在於:步驟(7)具體為以參考葉綠體基因組的頭部為起始,將組裝序列的頭部以前序列搬到尾部,搜尋疊加區域,合併頭部和尾部序列,獲得組裝葉綠體基因組完整序列。
【文檔編號】C12N15/10GK104450682SQ201410782756
【公開日】2015年3月25日 申請日期:2014年12月16日 優先權日:2014年12月16日
【發明者】洪棋斌, 龔桂芝 申請人:西南大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀