實現dna序列分析中增加測序閱讀長度的測定方法
2024-04-05 10:41:05 1
專利名稱:實現dna序列分析中增加測序閱讀長度的測定方法
技術領域:
本發明涉及一種高通量測的DNA測序方法,是一種實現DNA序列分析中增加 測序閱讀長度的測定方法。
背景技術:
隨著人類基因組計劃和各種模式生物基因組計劃的開展和完成,使人類步 入了後基因時代,對當代的生物學研究和醫學研究產生了巨大的影響,分子生物 學相關學科得到了迅猛的發展。從基因水平上認識生命的差異,疾病發生、發展 的規律,以及藥物與生命體的相互作用將成為可能。就基因序列分析而言,後基 因時代的重點已由全基因組序列測定轉移到了對基因組中個體遺傳差異及物種 間遺傳差異的比較。目前,無論是找尋新的還是確認已知SNP位點,傳統的Sanger DNA測序法,仍處於無可替代的地位。但這一方法存在通量低和價格高的問題。 第一個人類基因組序列測定的費用大約為10億美元,目前這一費用已經降低到大 約2千萬美元。但是,功能基因組的研究進展仍然受限於DNA測序技術。為此,美 國Venter基金會在2003年提出了 1 OOO美金人類全基因組測序的研究目標。2004 年初,美國國立衛生院投入7千多萬美元支持DNA測序新技術的研究計劃,其目標 是發展10萬美金的測序技術,並最終減低為l千美金。美國國立衛生研究院人類 基因組研究中心主任Collins教授指出大幅度降低DNA測序的成本將會大大推動 生命科學和醫學的研究,甚至會帶來革命性的變化。目前國際上要完成一個哺乳 動物全基因組的測序需要上千萬美元。以當前最為先進的ABI Prism 3730 DNA 測序儀為例,完成人類基因組中30億鹼基的測序,需要150臺ABI Prism 3730 DNA測序儀運轉一年,其測序成本達到二千四百萬美元。現在以Sanger DNA測序 法為基礎的,在發展高密度的毛細管陣列,以提高測序的並行性,進而提高DNA 的測序速度這一研究思路在提高DNA測序速度和降低成本方面的改進空間也十分有限。
目前,全基因組DNA測序技術己經成為國際上一個競爭十分激烈的研究領 域。大部分研究在合成測序策略方面。除了對現有的基於電泳的測序技術進行 改進外,當前正在發展的新型測序技術主要集中在非電泳的手段上。這類技術從總體上來看可以分成四大類第一類是合成測序,在鹼基加入到正在延伸的DNA 鏈的過程當中進行檢測;第二類技術則是雜交測序法,通過製備一組高密度寡核 苷酸微陣列晶片的雜交信號,進行目標基因的序列鑑定。第三類為分子影像一系 列可以在單分子的水平上進行測序的技術;最後一類技術是誘導DNA分子蜿蜒通
過非常細微的小孔,在這個過程當中藉助於電子學或者光學的方法對鹼基進行讀 出,也稱作納米孔測序。實際上,目前只有合成測序方法有希望用於全基因組測 序。合成測序法目前較為成功的例子是美國的454 Life Sciences公司基於乳液 PCR產物的高通量並行焦測序技術;Illumina (Solexa)公司的橋式擴增-DNA 晶片延伸測序技術;以及Applied Biosestems (SOLiD)公司基於乳液PCR產物 的雜交-酶連接-酶切割高通量測序技術。
而目前的延伸合成測序方法,不管是焦測序還是標記單體的延伸測序,由於 延伸反應效率、洗滌等會錯誤延伸的累積、測序引物的流失等,這些問題都可能 導致序列閱讀長度的降低,而序列閱讀長度顯著影響拼接組裝效率。已有文獻表 明,當序列閱讀長度為20個鹼基時,需要進行50次以上的序列測定,而當序列 閱讀長度為80個鹼基時,只需要5-6次左右的序列測定就能將人類基因組序列 進行有效的完整組裝。因此,提高測序的閱讀長度不僅可以提高序列的準確性, 而且可以大大降低序列測定的成本。
本發明的目的就是通過一種高通量測序引物,為DNA序列分析增加測序閱讀 長度,建立快速,準確,便宜的基因組序列測定方法。
發明內容
本發明的目的是提供一種實現DNA序列分析中增加測序閱讀長度的測定方 法,其優點在於測序閱讀長度長,能夠提高拼接的正確性,減少重複測定的次數, 序列測定費用低。
本發明的基本思路是DNA測序引物由一段測序模板雜交定位片段和一段測 序起點定位片段構成。當高通量測序引物與未知單鏈DNA模板完成雜交後可以從 測序起點開始模板序列的測定;當實現一小段序列的鹼基測定後,將測序引物從 DNA模板中變性分離,並重新將包含上述一小段已經測定序列的新高通量測序引 物與DNA模板雜交,繼續下一段序列測定,每增加一次新的測序引物雜交,將增 加DNA模板序列的一小段閱讀長度,循環上述過程,直到未知DNA模板的序列確 定。由於高通量引物是通過非常成熟的固相DNA方法合成並純化得到,或者在 DNA模板指導下通過連接合成的雜交定位片段和測序起點定位片段得到,因此該 方法沒有錯誤延伸的累積效應,能夠維持DNA模板和測序引物的量,序列的測定 正確可靠,不存在測序長度的限制;另外,該方法按照流行的分子生物學方法進 行,不存在技術難點。
本發明採用如下技術方案
一種實現DNA序列分析中增加測序閱讀長度的測定方法
步驟1:在待測DNA序列的一端連接一段公用的已知測序用於序列測引物的 雜交,
步驟2:使用現有的電泳或非電泳DNA測序方法,測得待測DNA測序模板的 鹼基數量為5 40個的第一段鹼基序列,然後,根據連接於待測DNA序列一端的 已知測序引物及已經測得的DNA鹼基序列,人工合成另一段測序引物,該另一段 測序引物由測序雜交定位片段及測序起點定位片段組成,該測序雜交定位片段是 由A、 T、 C及G構成的與步驟1所述己知測序引物互補的鹼基序列,測序起點定 位片段由能夠與A、 T、 C或G配對的基團構成且測序起點定位片段的整體穩定性 低於測序雜交定位片段,
步驟3:採用變性方法,從待測DNA測序模板上,去除已與待測DNA測序模 板雜交的延伸測序引物,再將由步驟2得到的新的人工合成的另一段測序引物與 待測DNA序列進行雜交,
重複步驟2 3,進行循環測定,直至測得全部待測DNA序列。
所述的測序引物,測序引物可以通過成熟的固相DNA合成方法合成並純化得 到,也可以在未知單鏈DNA模板引導下,將雜交定位片段和測序起點定位片段連 接得到。
所述的測序引物中雜交定位片段,測序引物的雜交溫度由雜交定位片段測序 來確定的。這個片段雜交未知DNA模板的已知序列片段。雜交定位片段為正常的 核苷酸序列,其鹼基個數為15-~40,最佳為20-30。
所述的測序引物中測序起點定位片段,這段序列為雜交定位和測序起點定位 提供空間連接作用,對應於未知DNA模板的已知(已測定)序列或者不需要測定 的序列片段。測序起點定位片段由鹼基N (既包含四個正常鹼基混合物)、以及 能與模板DNA雜交,但穩定性比正常鹼基配對差的其它鹼基或者鹼基類似物基 團,如脫氧肌苷(1)、脫氧核糖、核糖、次黃嘌呤、甲基腺嘌呤、甲基鳥嘌呤、 甲基胞嘧啶、二氫尿嘧啶等,它滿足與所有未知DNA模板的雜交要求,且其雜交
溫度比雜交定位片段的低。測序起點定位片段鹼基個數相當於正常核苷酸序列鹼 基個數為0—100,最佳為20-50。
本發明與現有技術相比,具有如下優點
1. 本發明的最大優點是實現了DNA序列測列的閱讀長度,提高了拼接的正 確性,減少重複測定的次數,大大降低了序列測定的費用。
2. 本發明的高通量測序引物由於鹼基類似物或者基團不能夠與模板DNA上 的鹼基形成正常穩定氫鍵,這樣可以通過控制溫度來準確控制雜交定位片段序列 的雜交準確性,以及有效控制測序引物延伸3端的雜交特異性,從而保證後續測 序的正確性。此外,該發明均按照流行的分子生物學方法進行,容易在現有的技 術上實施。
圖1是本發明一種高通量測序引物及其增加測序閱讀長度的方法序列測定示 意圖。
圖2是本發明採用固相DNA合成的一種高通量測序引物示意圖。 圖3是本發明在未知單鏈DNA模板引導下,通過特異連接雜交定位片段和測 序起點定位片段得到的一種高通量測序引物及其製備流程示意圖。
具體實施例方式
當高通量測序引物實際上是一組寡核苷酸序列,這組序列是所有測序模板的 測序引物,它們均由一段測序模板雜交定位片段和一段測序起點定位片段構成。 當高通量測序引物與未知單鏈DNA模板完成雜交後可以從測序起點開始模板序 列的測定;當實現一小段序列的鹼基測定後,將測序引物從DNA模板中變性分離, 並重新將包含上述一小段已經測定序列的新高通量測序引物與DNA模板雜交,繼 續下一段序列測定,每增加一次新的測序引物雜交,將增加DNA模板序列的一小 段閱讀長度,循環上述過程,直到未知DNA模板的序列確定。
通過常規的固相合成法一次合成高通量測序引物能滿足與所有未知DNA模 板雜交的測序引物要求。同時,新高通量測序引物中央部分包括替代正常鹼基, 並能與鹼基形成弱鍵的鹼基或者鹼基類似物基團,這樣可以通過控制溫度來有效 控制測序引物的定位以及引物3端的雜交特異性,從而保證後續測序的正確性。
測序方法可以是鹼基延伸序列測定方法,序列連接測定方法以及其它測定方 法。在鹼基延伸序列測定方法中高通量測序引物為單向的(即測序引物的3端延 伸鹼基),而在序列連接測定方法中高通量測序引物既可以是的單向的(測序引 物的3端連接或者測序引物的5端連接),也可以是雙向的。序列測定可以是單
個DNA模板,也可以是多個DNA模板並行進行。
本實施例所述的一種實現DNA序列分析中增加測序閱讀長度的測定方法 步驟1:在待測DNA序列的一端連接一段公用的已知測序用於序列測引物的
雜交,
步驟2:使用現有的電泳或非電泳DNA測序方法,測得待測DNA測序模板的 鹼基數量為5 40個的第一段鹼基序列,然後,根據連接於待測DNA序列一端的 已知測序引物及已經測得的DNA鹼基序列,人工合成另一段測序引物,該另一段 測序引物由測序雜交定位片段及測序起點定位片段組成,該測序雜交定位片段是 由A、 T、 C及G構成的與步驟1所述已知測序引物互補的鹼基序列,測序起點定 位片段由能夠與A、 T、 C或G配對的基團構成且測序起點定位片段的整體穩定性 低於測序雜交定位片段,
步驟3:採用變性方法,從待測DNA測序模板上,去除已與待測DNA測序模 板雜交的延伸測序引物,再將由步驟2得到的新的人工合成的另一段測序引物與 待測DNA序列進行雜交,
重複步驟2 3,進行循環測定,直至測得全部待測DNA序列。
上述能夠與A、 T、 C或G配對的基團包括次黃嘌呤及其衍生物、吲哚核苷及 其衍生物、脫氧核糖及其衍生物、核糖及其衍生物或二氫尿嘧啶及其衍生物,具 體可以是脫氧肌苷(1)、 H引哚核苷、二氫尿嘧啶等。在滿足測序起點定位片段整 體穩定性低於測序雜交定位片段的條件下,可在測序起點定位片段中插入使用 A、 T、 C或G,與其他能夠與A、 T、 C或G配對的基團共同構成測序起點定位片段。
在本實施例中,在每次循環測定中,在測序起點定位片段1-2的一個末端修 飾有能與測序雜交定位片段1-1連接的活性基團4,在另一個末端修飾了一個封 閉基團5,活性基團4可以採用磷酸根基團,封閉基團5可以採用磷酸根基團, 封閉基團5可以通過酶消化成羥基,為序列測定的鹼基延伸提供反應位點。 以下將結合附圖對本發明作進一步說明。
圖1是本發明一種高通量測序引物及其增加測序閱讀長度的方法序列測定 示意圖。圖中有高通量測序引物l,未知DNA模板序列2。當測序引物(1)與 未知DNA模板序列(2)完成雜交後,可以採用鹼基延伸、序列連接、焦測序以
及其它測序方法進行序列測定。
圖2是本發明採用固相DNA合成的一種高通量測序引物示意圖。圖中1為高 通量測序引物,它由雜交定位序列1-1、和測序起點定位片段序列1-2組成。其 中雜交定位序列卜l為正常的鹼基序列(X表示可能的A、 G、 C、 T中的一種, 不同位置的X鹼基科研相同也可以補相同),測序起點序列由鹼基N ((既包含四 個正常鹼基混合物),以及能與模板DNA雜交,但穩定性比正常鹼基配對差的其 它鹼基或者鹼基類似物基團,如脫氧肌苷(1)、脫氧核糖、核糖、次黃嘌呤、甲 基腺嘌呤、甲基鳥嘌呤、甲基胞嘧啶、二氫尿嘧啶等。由於或者鹼基類似物或者 基團不能夠與模板DNA上的鹼基形成正常穩定氫鍵,這樣可以通過控制溫度來準 確控制雜交定位片段序列的雜交,以及有效控制測序引物延伸3端的雜交特異 性,從而保證後續測序的正確性。
圖3是本發明在未知單鏈DNA模板引導下,通過特異連接雜交定位片段和測 序起點定位片段得到的一種高通量測序引物及其製備流程示意圖。圖中有測序 雜交定位片段1-1和測序起點定位片段1-2,未知單鏈DNA模板序列2,固定未 知單鏈DNA模板序列(2)的載體3。其中,測序起點定位片段(1-2)的一個末 端修飾了可以與測序雜交定位片段(1-1)連接的活性基團4 (如磷酸根基團等), 而另一個末端修飾了一個封閉基團5,使得測序起點定位片段(1-2)相互間不 能發生連接反應。固定在載體(3)上的未知單鏈DNA模板(2)與測序雜交定位 片段(1-1)完成雜交,洗滌未雜交或者不完全互補雜交的引物(a),加入測序 起點定位片段(1-2)與未知單鏈DNA模板(2)雜交(b),在連接酶的作用下, 連接測序雜交定位片段(1-1)測序起點定位片段U-2) (c),通過變性、清除 未連接的測序起點定位片段(1-2) (d),活化測序起點定位片段(1-2)的封閉 基團(e),便製備出可用於序列測定的高通量測序引物。由於測序起點定位片段 是通用引物,因此與DNA模板的任何片段均能完成雜交,可以採用反覆"雜交-變性-連接"的方式提高準確連接的效率。
實例l:雜交-螢光單體延伸測序法測定包含人全基因組。
將人基因組用酶切割(或者超聲破碎)成大小為50-1000鹼基的片段,並在 連接酶的作用下將這些片段化核酸序列用一對通用連接子進行連接(假定均為 20個鹼基),其中的一個通用連接子的寡核酸序列與擴增引物的序列完全互補, 而另一個連接子的寡核酸序列與測序引物的相同。
連接臂連接的片段化核酸序列置於固定連接子互補序列的連玻璃基片上進 行擴增反應,並最後得到人全基因組測序模板。
參照附圖l、圖2,將將定位序列片段作為測序引物與人全基因組測序模板 雜交。將3端封閉並標記不同顏料的A、 G、 C、 T單體加入玻璃基片上進行延伸
測序反應延伸反應完成後,洗滌未參與反應的單體,並對玻璃基片進行掃描分 析確定哪些位置的模板進行了哪些鹼基的延伸反應,從而確定基因組序列上的鹼 基。將合成單體的3端活化,並進行下一個鹼基的序列測定。每重服一次增加一 個鹼基的序列測定,直到因每個鹼基的延伸效率導致不能準確鹼基序列為止,停 止該次合成延伸測序。將延伸上述測定若干個鹼基序列的測序引物變性掉,並重 新雜交新的高通量測序引物。如果上次延伸測序確定每個模板的鹼基個數為25
個,則新的測序引物長度為45個其中20個雜交定位序列片段;25個鹼基序 列為引物測序起點定位片段,為了能夠完全滿足所有基因組測序模板的雜交要
求,這段序列可以包含20個脫氧肌苷nnniinnni和5個鹼基n組成的45 條序列,鹼基i可以和模板上的任何四個正常的鹼基形成弱的氫鍵,而鹼基n
意味著從45條序列中總能找到與模板完全互補的雜交序列。新的高通量測序引
物與模板完成雜交後,便定位於上次序列測定的位置,進行新的序列測定。每增
加一次新的測序引物雜交,將增加dna模板序列的一小段閱讀長度,循環上述過 程,直到未知dna模板的序列確定。
實例2 :雜交-連接螢光標記序列法測定包含人全基因組。
將人基因組用酶切割(或者超聲破碎)成大小為50-1000鹼基的片段,並在 連接酶的作用下將這些片段化核酸序列用一對通用連接子進行連接(假定均為 20個鹼基),其中的一個通用連接子的寡核酸序列與擴增引物的序列完全互補, 而另一個連接子的寡核酸序列與測序引物的相同。
將這些連接臂連接的片段化核酸序列與固定連接子互補序列到微珠進行乳 液並行pcr反應,擴增片段化的人全基因組。並將這些微珠固定到平板基片上, 通過酶切或者變性得到人全基因組測序模板。
參照附圖1、圖2和圖3,將雜交定位序列片段與人全基因組測序模板雜交。 將標記不同顏料的a陋nn"、 gnnnn"、 cn顧n"、 tnnnn" (*表示顏料分子)與人 全基因組測序模板完成雜交一連接,並進行掃描分析確定哪些位置的模板進行了 哪些鹼基的連接反應,從而確定基因組序列上的鹼基。用酶切方法將四個不確定 的鹼基連同螢光分子(nnnn') —同切除,不斷重複上訴過程,每重複一次增加 一個鹼基的序列測定,直到因鹼基的延伸效率導致不能準確鹼基序列為止,停止 該次測序。將延伸上述測定若干個鹼基序列的測序引物變性掉,並重新雜交定位 序列片段。如果上次延伸測序確定每個模板的鹼基個數為25個,則將這一條含 有25個通用鹼基的片段(如2 5個脫氧肌苷序列)作為測序起點定位片段,與 模板dna雜交並完成連接反應,由通用鹼基構成的測序起點定位片段的3端修飾 了一個封閉基團,使得測序起點定位片段相互間不能發生連接反應。這樣就製備 出長度為45個的測序引物,定位於上次序列測定的位置,進行新的序列測定。 每增加一次新的測序引物雜交,將增加DNA模板序列的一小段閱讀長度,循環上 述過程,直到未知DNA模板的序列確定。
循環上述雜交-延伸過程,直到序列測定到需要的位置。
權利要求
1、一種實現DNA序列分析中增加測序閱讀長度的測定方法,其特徵在於步驟1在待測DNA序列的一端連接一段公用的已知測序用於序列測引物的雜交,步驟2使用現有的電泳或非電泳DNA測序方法,測得待測DNA測序模板的鹼基數量為5~40個的第一段鹼基序列,然後,根據連接於待測DNA序列一端的已知測序引物及已經測得的DNA鹼基序列,人工合成另一段測序引物,該另一段測序引物由測序雜交定位片段及測序起點定位片段組成,該測序雜交定位片段是由A、T、C及G構成的與步驟1所述已知測序引物互補的鹼基序列,測序起點定位片段由能夠與A、T、C或G配對的基團構成且測序起點定位片段的整體穩定性低於測序雜交定位片段,其數量等於已經測得的DNA鹼基序列的鹼基總數,步驟3採用變性方法,從待測DNA測序模板上,去除已與待測DNA測序模板雜交的延伸測序引物,再將由步驟2得到的新的人工合成的另一段測序引物與待測DNA序列進行雜交,重複步驟2~3,進行循環測定,直至測得全部待測DNA序列。
2、 根據權利要求1所述的實現DNA序列分析中增加測序閱讀長度的測定方 法,其特徵在於能夠與A、 T、 C或G配對的基團包括次黃嘌呤及其衍生物、吲哚 核苷及其衍生物、脫氧核糖及其衍生物、核糖及其衍生物或二氫尿嘧啶及其衍生 物。
3、 根據權利要求1或2所述的實現DNA序列分析中增加測序閱讀長度的測 定方法,其特徵在於在每次循環測定中,在測序起點定位片段(1-2)的一個末 端修飾有能與測序雜交定位片段(1-1)連接的活性基團(4),在另一個末端修 飾了一個封閉基團(5)。
全文摘要
一種實現DNA序列分析中增加測序閱讀長度的測定方法使用現有的電泳或非電泳DNA測序方法,測得待測DNA測序模板的鹼基數量為5~40個鹼基序列,人工合成另一段測序引物,該另一段測序引物由測序雜交定位片段及測序起點定位片段組成,該測序雜交定位片段是由A、T、C及G構成的與所述已知測序引物互補的鹼基序列,測序起點定位片段由能夠與A、T、C或G配對的基團構成且測序起點定位片段的整體穩定性低於測序雜交定位片段,其數量等於測得的DNA鹼基序列的鹼基總數;從待測DNA測序模板上去除延伸測序引物,再將另一段測序引物與待測DNA序列進行雜交;重複上述步驟,循環測定,至測得待測DNA序列。
文檔編號C12Q1/68GK101168774SQ20071013500
公開日2008年4月30日 申請日期2007年11月6日 優先權日2007年11月6日
發明者靜 唐, 嘯 孫, 肖鵬峰, 陸祖宏 申請人:東南大學