用於多重測序的方法和組合物的製作方法
2024-04-05 13:07:05
專利名稱:用於多重測序的方法和組合物的製作方法
用於多重測序的方法和組合物
交叉引用本申請要求於2010年6月8日提交的美國臨時申請號61/352,801的權益,該申請在此引入作為參考。
序列表本申請包含通過EFS-Web以ASCII格式提交的序列表,該序列表在此完整併入作為參考。所述ASCII副本創建於2011年6月8日,命名為25115-741-201.txt,大小為21Kb。
背景技術:
對DNA的大規模序列分析可有助於理解與人類及許多重要的經濟植物和動物的健康和疾病狀態有關的大量生物學現象,例如,參見Collins等(2003),Nature,422:835-847 !Service, Science,311:1544-1546(2006) ;Hirschhorn 等(2005),NatureReviews Genetics,6:95-108 ;National Cancer Institute,Report of Working Group onBiomedical Technology,「Recommendation for a Human Cancer Genome Project,,,(2005年 2 月);Tringe 等(2005), Nature Reviews Genetics, 6:805_814。對低成本高通量測序和再測序的需求已經導致開發了幾種對很多靶DNA片段同時進行平行分析的新方法,例如 Margulies 等,Nature, 437:376-380 (2005) ;Shendure 等(2005), Science,309:1728-1732 ;Metzker (2005), Genome Research, 15:1767-1776 ;Shendure 等(2004),Nature Reviews Genetics, 5:335-344 ;Lapidus 等,美國專利公開號 US2006/0024711 ;Drmanac 等,美國專利公開號 US2005/0191656 ;Brenner 等,Nature Biotechnology, 18:630-634(2000);等等。 這些方法反映了用於增加靶多核苷酸密度和用於在特定序列檢測化學的每個循環中獲得數量增加的序列信息的多種解決方案。鑑於在給定反應中序列混合物的複雜性,一般限於每個反應室進行一個樣品的測序。然而,使用這些下一代測序技術在給定反應中讀取的鹼基數量可能遠遠大於獲得目標序列信息的實際需要,這實質上屬於浪費測序空間。隨著對來自多個來源的樣品進行測序的需求越來越高,利用這些技術的費用可能很快會變得無法承受。測序運行也經常受限於能夠平行運行的單獨反應的數目,這進一步限制了可以處理大量樣品的效率。解決這些挑戰的一些方法涉及將額外的標識序列併入每個待分析的靶片段。在不同序列用於不同樣品時,對合併的樣品進行測序後,可以基於加入的序列將序列解析為對應樣品來源的子集。然而,添加序列來解析樣品來源面臨著兩個挑戰。第一,當測序中的隨機錯誤發生在太短的附加序列中或發生在不足以與對應於其他樣品的序列進行區分的附加序列中時,該隨機錯誤可能導致無法對附加的標識序列與其樣品來源進行正確地鑑別。第二,考慮到此類測序錯誤而加入的較長序列佔據了可短至20個鹼基的目標讀數的有價值測序空間。出於這些限制,需要增加下一代測序技術的效率,以便可以以較高的鑑別精度來測序較大數量的樣品,同時使可獲得的測序空間最大化。
發明內容
一方面,本發明提供了用於多重測序的方法、組合物和試劑盒。在一個實施方式中,該方法包括在單一反應室中對多個靶多核苷酸進行測序,其中所述靶多核苷酸來自兩個或多個不同樣品;以及基於所述靶多核苷酸的序列中含有的單一條碼(barcode),以至少95%的準確度對每個所述測序的靶多核苷酸所源自的樣品進行鑑定。在一些實施方式中,革G多核苷酸包含用於校正測序反應的一個或多個序列。在一些實施方式中,每個條碼在至少三個核苷酸位點處不同於所有其它條碼。在一些實施方式中,在條碼中的核苷酸的突變或缺失後,樣品來源的鑑定仍然是準確的。另一方面,本發明提供了用於從多個獨立樣品中產生銜接體(adapter)標記的靶多核苷酸的方法、組合物和試劑盒。在一個實施方式中,該方法包括:(a)提供多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列;和(b)將至少一個所述第一銜接體寡核苷酸與每個所述樣品的所述靶多核苷酸連接,從而沒有條碼序列與多於一個所述樣品的所述靶多核苷酸連接。在一些實施方式中,該方法進一步包括(c)將多個第二銜接體寡核苷酸中的至少一個與來自步驟(b)的每個所述樣品的所述靶多核苷酸連接,從而至少一些所述靶多核苷酸在一端包含所述第一銜接體寡核苷酸,並在另一端包含所述第二銜接體寡核苷酸。本發明的一個或多個銜接體寡核苷酸可包含SEQ ID N0:1。本發明的一個或多個銜接體寡核苷酸可包含SEQID N0:2。一個或多個銜接體寡核苷酸可包含髮夾結構。一個或多個銜接體寡核苷酸可包含寡核苷酸雙鏈體。在一些實施方式中,所述條碼序列的長度為至少3個核苷酸。在一些實施方式中,所述多個條碼序列包括選自下組的序列:AAA、TTT、CCC和GGG。在一些實施方式中,所述多個條碼序列包括選自下組的序列:AAAA、CTGC、GCTG, TGCT, ACCC, CGTA, GAGT, TTAG, AGGG,CCAT, GTCA, TATC, ATTT, CACG, GGAC和TCGA。在一些實施方式中,所述多個條碼序列包括選自下組的序列:AAAAA、AACCC, AAGGG, AATTT, ACACG, ACCAT, ACGTA, ACTGC, AGAGT, AGCTG,AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTA A、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。在一些實施方式中,所述方法進一步包括合併來自步驟(C)的靶多核苷酸。靶多核苷酸可以基於其所連接的條碼序列進行合併,從而在合併池(pool)中沿著每個條碼的一個或多個位點處均勻呈現所有四種鹼基。在一些實施方式中,靶多核苷酸包含片段化的樣品多核苷酸。片段化可包括對樣品多核苷酸進行超聲處理,和/或在適合一種或多種酶(其可以包括DNase 1、片段化酶及其變體)產生隨機雙鏈核酸斷裂(break)的條件下使用一種或多種酶處理樣品多核苷酸。在一些實施方式中,片段化包括使用一種或多種限制性內切酶處理樣品多核苷酸。片段可以具有10-10,000個核苷酸的平均長度,例如100-2,500個核苷酸或50-500個核苷酸的平均長度。在一些實施方式中,樣品包含少於500ng的核酸。靶多核苷酸可包含基因組DNA、弓I物延伸反應產生的DNA、cDNA、線粒體DNA、葉綠體DNA、質粒DNA、細菌人工染色體、酵母人工染色體或其組合。
在一些實施方式中,所述方法進一步包括執行使用一個或多個連接的銜接體寡核苷酸作為模板來延伸靶多核苷酸的一個或多個3』末端的步驟。在一些實施方式中,該方法進一步包括在延伸步驟後使用第一引物和第二引物擴增靶多核苷酸,其中第一引物含有能夠與一個或多個第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中第二引物含有能夠與一個或多個第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。擴增步驟中使用的一個或多個引物可包含SEQ ID N0:1。擴增步驟中使用的一個或多個引物可包含SEQ ID N0:2。在一些實施方式中,每個第二銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。第一和第二銜接體寡核苷酸對可包含相同或不同的條碼序列。在一些實施方式中,該方法進一步包括對來自獨立樣品的靶多核苷酸池中的一個或多個多核苷酸進行測序。測序可包含測序引物的延伸,該引物包括可與第一銜接體寡核苷酸和/或第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。在一些實施方式中,測序引物含有SEQ ID NO:1或SEQ ID NO:2。在一些實施方式中,測序包括校正步驟,其中校正基於位於條碼序列中的一個或多個核苷酸位點處的每個核苷酸。在一些實施方式中,該方法進一步包括基於其連接的條碼序列鑑定靶多核苷酸所源自的樣品。另一方面,本發明提供了用於上述方法的組合物,其包含任何一個或多個在此描述的元件。一方面,本發明提供了用於多重測序的組合物。在一個實施方式中,組合物包含多個靶多核苷酸,每個靶多核苷酸包含選自多個條碼序列的一個或多個條碼序列,其中所述靶多核苷酸來自兩個或多個不同的樣品,並且進一步地,其中可在組合測序反應中基於所述靶多核苷酸序列含有的單一條碼以至少95%的準確度鑑定每個所述靶多核苷酸所源自的樣品。另一方面,本發明提供了用於產生銜接體標記的靶多核苷酸的組合物,其包含任何一個或多個在此描述的元件。在一個實施方式中,組合物包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。在一些實施方式中,組合物進一步包含多個第二銜接體寡核苷酸。在一些實施方式中,靶多核苷酸包含於流動池中。第一銜接體寡核苷酸可按照四的倍數進行分組,從而在沿每個條碼的每個位點處均勻呈現所有四種鹼基。在第二銜接體寡核苷酸包含條碼時,第一和第二銜接體寡核苷酸對可包含相同或不同的條碼序列。在一些實施方式中,組合物進一步包含第一引物和第二引物,其中所述第一引物含有可以與一個或多個所述第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中所述第二引物含有可以與一個或多個所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。在一些實施方式中,組合物還包含測序引物,該測序引物含有可與所述第一銜接體寡核苷酸和/或所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。在一些實施方式中,組合物包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含含有序列A的5』端和含有序列A』的3』端,並且進一步地,其中A可與A』雜交,A或A』之一包含DNA,且A或A』中的另一個包含RNA和5個或更多個末端DNA核苷酸。在一些實施方式中,組合物進一步包含多個第二銜接體寡核苷酸,其中每個所述第二銜接體寡核苷酸包含含有序列B的5』端和含有序列B』的3』端,並且進一步地,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA和5個或更多個末端DNA核苷酸。在另一方面,本發明提供了含有上述方法和組合物中公開的任何一個或多個元件的試劑盒。在一個方面,本發明提供了一種用於產生銜接體標記的靶多核苷酸的試劑盒。在一個實施方式中,該試劑盒包含多個第一銜接體寡核苷酸及其使用說明,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。在一些實施方式中,該試劑盒進一步包含多個第二銜接體寡核苷酸。在一些實施方式中,該試劑盒進一步包含第一引物和第二引物,其中所述第一引物含有可以與一個或多個所述第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中所述第二引物含有可以與一個或多個所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。在一些實施方式中,該試劑盒還包含測序引物,該測序引物含有可與所述第一銜接體寡核苷酸和/或所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。在一些實施方式中,該試劑盒進一步包含以下一個或多個:(a) DNA連接酶,(b)DNA依賴的DNA聚合酶,(c)RNA依賴的DNA聚合酶,(d)隨機引物,(e)在3』端包含至少4個胸苷的引物,(f) DNA核酸內切酶,
(g)具有3』到5』核酸外切酶活性的DNA依賴的DNA聚合酶,(h)多個引物,每個引物具有多個選定序列之一,(i)DNA激酶,(j)DNA核酸外切酶,(k)磁珠,(I)具有RNase H活性的酶,(m)RNA連接酶,和(η)適合所述試劑盒中所包含的一個或多個元件的一種或多種緩衝液。在一些實施方式中,所述試劑盒包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含含有序列A的5』端和含有序列Α』的3』端,並且進一步地,其中A可與Α』雜交,A或Α』之一包含DNA,且A或Α』中的另一個包含RNA和5個或更多個末端DNA核苷酸。在一些實施方式中,所述試劑盒進一步包含多個第二銜接體寡核苷酸,其中每個所述第二銜接體寡核苷酸包含含有序列B的5』端和含有序列B』的3』端,並且進一步地,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA和5個或更多個末端DNA核苷酸。另一方面,本發明提供了一種用於產生銜接體標記的多核苷酸的方法。在一個實施方式中,該方法包括:(a)提供多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含含有序列A的5』端和含有序列A』的3』端,並且進一步地,其中A可與A』雜交,A或A』之一包含DNA,且A或A』中的另一個包含RNA和5個或更多個末端DNA核苷酸;以及,(b)將至少一個所述第一銜接體寡核苷酸與至少一個所述靶多核苷酸連接起來。每個所述第一銜接體寡核苷酸可以包含條碼序列。在一些實施方式中,該方法進一步包括用能夠從RNA-DNA異雙鏈體上裂解RNA的酶來裂解RNA的步驟。在一些實施方式中,該方法進一步包括使用所述一個或多個連接的銜接體寡核苷酸作為模板來延伸所述靶多核苷酸的一個或多個3』端的步驟。在一些實施方式中,該方法包括將多個第二銜接體寡核苷酸中的至少一個與來自步驟(b)的每個所述樣品的所述靶多核苷酸連接,從而至少一個所述靶多核苷酸在一端包含所述第一銜接體寡核苷酸,並在另一端包含所述第二銜接體寡核苷酸。在一些實施方式中,每個所述第二銜接體寡核苷酸包含含有序列B的5』端和含有序列B』的3』端,並且進一步地,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA和5個或更多個末端DNA核苷酸。在一些實施方式中,每個所述第二銜接體寡核苷酸包含條碼序列。
引用參考 本說明書中提及的所有出版物、專利和專利申請在此弓I入作為參考,如同每個單獨的出版物、專利或專利申請均特指地和單獨地指明被引入作為參考一樣。
本發明的新特徵在隨附的權利要求中具體闡述。通過參考以下對在其中利用到本發明原理的說明性實施方式加以闡述的詳細描述和附圖,可獲得對本發明的特徵和優點的更好的理解,附圖如下:圖1顯示了本發明方法的一個實施方式的示意圖。圖2A顯示了根據本發明方法而獲得的用於與銜接體寡核苷酸(也被稱為「銜接體」)連接的靶多核苷酸的擴增產物的示例結果。圖2B顯示了來自圖2A的選定泳道的並列對比,以及關於連接反應中所含元件的細節。圖3顯示了本發明方法的一個實施方式的示意圖,其中髮夾銜接體在5』端包含RNA。圖4顯示了本發明方法的一個實施方式的示意圖,其中髮夾銜接體在3』端包含RNA。圖5顯示了本發明方法的一個實施方式的示意圖,其中在3』端包含RNA的髮夾銜接體與靶多核苷酸連接,並進一步將非髮夾銜接體添加至未連接至髮夾銜接體的靶多核苷酸的末端。圖6顯示了本發明方法的一個實施方式的示意圖。圖7顯示了多種銜接體設計、估算的連接效率和在瓊脂糖凝膠上分析的PCR擴增的連接產物。圖8顯示了含有靶多核苷酸、銜接體寡核苷酸和連接產物的瓊脂糖凝膠。圖9顯示了含有PCR擴增的連接產物的瓊脂糖凝膠。圖10顯示了本發明方法的一個實施方式的示意圖。
定義術語「多核苷酸」、「核苷酸」、「核苷酸序列」、「核酸」和「寡核苷酸」可交換使用。它們表示任意長度的聚合形式的核苷酸(脫氧核糖核苷酸或核糖核苷酸)或其類似物。多核苷酸可以具有任何三維結構,並可行使任何已知或未知的功能。以下是多核苷酸的非限制性例子:基因或基因片段的編碼或非編碼區、基因間DNA、連鎖分析定義的基因座、外顯子、內含子、信使RNA(mRNA)、轉移RNA、核糖體RNA、短幹擾RNA(siRNA)、短髮夾RNA(shRNA)、微小RNA(miRNA)、小核仁RNA、核酶、cDNA、重組多核苷酸、分支多核苷酸、質粒、載體、分離的任意序列的DNA、分離的任意序列的RNA、核酸探針和引物。多核苷酸可以包含修飾的核苷酸,例如甲基化核苷酸和核苷酸類似物。對核苷酸結構的修飾,如果存在的話,可以在聚合物裝配之前或之後進行。核苷酸序列可以被非核苷酸成分中斷。聚合後,例如可以通過與標記成分綴合對多核苷酸進行進一步修飾。除非另有說明,否則提供的多核苷酸序列均以5』到3』的方向列出。在此使用的術語「靶多核苷酸」指具有靶序列的核酸分子起始群體中的核酸分子或多核苷酸,該靶序列的存在與否、數量和/或核苷酸序列或者這些方面的變化是需要進行測定的。總而言之,靶多核苷酸是一種雙鏈核酸分子,且可以來自產生雙鏈核酸分子的任何來源或任何過程。在此使用的術語"靶序列"一般指單鏈核酸上的核酸序列。靶序列可以是基因的一部分、調控序列、基因組DNA、cDNA, RNA (包括mRNA、miRNA和rRNA)或其它。靶序列可以是來自樣品或第二目標例如擴增反應產物的目標序列。「核苷酸探針」、「探針」或「標籤寡核苷酸」指用於在雜交反應中檢測或鑑定其對應的靶多核苷酸的多核苷酸。因此,標籤寡核苷酸可與一個或多個靶多核苷酸雜交。標籤寡核苷酸可以與樣品中的一個或多個靶多核苷酸完全互補,或含有與樣品中的一個或多個靶多核苷酸中對應的核苷酸並不互補的一個或多個核苷酸。「雜交」和「退火」指一種反應,其中一個或多個多核苷酸發生反應形成複合物,後者通過核苷酸殘基的鹼基間的氫鍵結合來穩定化。氫鍵結合可以通過Watson Crick鹼基配對、Hoogstein結合或以任何其它序列特異性的方式發生。複合物可以包含形成雙鏈體結構的兩條鏈、形成多鏈複合物的三條或更多鏈、單個自雜交鏈或其任意組合。雜交反應可以構成一個更大過程中的一步,例如構成PCR或核酶酶促裂解多核苷酸的起始步驟。能夠通過與第二序列的核苷酸殘基的鹼基進行氫鍵結合而被穩定化的第一序列被稱為與所述第二序列「可雜交」。在該情況下,第二序列也可被稱為可與第一序列雜交。一般地,給定序列的「互補序列」是與該給定序列完全互補且可與其雜交的序列。一般而言,可與第二序列或第二序列集雜交的第一序列可特異性地或選擇性地與第二序列或第二序列集雜交,從而在雜交反應中,相對於與非靶序列的雜交,其更傾向於與第二序列或第二序列集雜交(例如在給定的一系列條件下,例如本領域通常使用的嚴格條件下,熱動力學更加穩定)。一般而言,可雜交序列在其各自長度的全部或部分上具有一定程度的序列互補性,例如25% -100%的互補性,包括至少約25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,91 %,92%,93%,94%,95%,96%,97%,98%、99%和100%的序列互補性。應用於多核苷酸的術語「雜交的」指通過核苷酸殘基的鹼基間的氫鍵結合而被穩定化的複合體中的多核苷酸。氫鍵結合可以通過WatsonCrick鹼基配對、Hoogstein結合或以任何其它序列特異性的方式發生。複合體可以包含形成雙鏈體結構的兩條鏈、形成多鏈複合體的三條或更多鏈、單個自雜交鏈或其任意組合。雜交反應可以構成一個更大過程中的一步,例如構成PCR反應或核酶酶促裂解多核苷酸的起始步驟。與給定序列雜交的序列被稱為該給定序列的「互補序列」。在此使用的「表達」指多核苷酸被轉錄成mRNA的過程,和/或轉錄的mRNA(也被稱為「轉錄物」)繼而被翻譯成肽、多肽或蛋白質的過程。轉錄物和編碼的多肽統稱為「基因產物」。如果多核苷酸來源於基因組DNA,則表達可包括真核細胞中mRNA的剪接。
發明詳述除非另有說明,否則本發明的實踐使用本領域公知的免疫學、生物化學、化學、分子生物學、微生物學、細胞生物學、基因組學和重組DNA的常規技術。參見Samtoook,Fritsch 和 Maniatis,MOLECULAR CLONING:A LABORATORY MANUAL,第二版(1989);CURRENT PROTOCOLS IN MOLECULAR BIOLOGY (F.M.Ausubel 等編,(1987));叢書 METHODSIN ENZYM0L0GY(Academic Press, Inc.):PCR2:APRACTICAL APPROACH(M.J.MacPherson,B.D.Hames和 G.R.Taylor編(1995)),Harlow和 Lane編(1988)ANTIBODIES,A LABORATORYMANUAL,以及 ANIMAL CELL CULTURE (R.1.Freshney 編(1987))。—方面,本發明提供了一種多重測序方法。在一個實施方式中,該方法包括在單一反應室中對多個靶多核苷酸進行測序,其中所述靶多核苷酸來自兩個或多個不同樣品;以及基於所述靶多核苷酸的序列中含有的單一條碼,以至少95%的準確度對每個所述測序的靶多核苷酸所源自的樣品進行鑑定。反應室可以是本領域已知的用於容納測序反應的任何區室,其非限制性的例子包括各種尺寸的管、多孔板的孔和流動池的通道。在一些實施方式中,革G多核苷酸包含一個或多個用於校正測序反應的序列。在一些實施方式中,用於校正測序反應的一個或多個序列在測序之前與靶多核苷酸連接。另一方面,本發明提供了一種從多個獨立樣品中產生銜接體標記的靶多核苷酸的方法。在一個實施方式中,該方法包括:(a)提供多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列;和(b)將至少一個所述第一銜接體寡核苷酸與每個所述樣品的所述靶多核苷酸連接,從而沒有條碼序列與多於一個所述樣品的所述祀多核苷酸連接。在一些實施方式中,該方法進一步包括(C)將多個第二銜接體寡核苷酸中的至少一個與來自步驟(b)的每個所述樣品的所述靶多核苷酸連接,從而至少一些所述靶多核苷酸在一端包含所述第一銜接體寡核苷酸,並在另一端包含所述第二銜接體寡核苷酸。第一和第二銜接體寡核苷酸可以是相同或不同的,不同銜接體寡核苷酸具有不同序列和/或不同長度的序列。第一銜接體寡核苷酸可包含一個或多個具有與第二銜接體寡核苷酸的一個或多個序列區相同的序列的序列區,和一個或多個具有與第二銜接體寡核苷酸的一個或多個序列區不同的序列的序列區。銜接體寡核苷酸包括至少一部分序列為已知、且能與靶多核苷酸連接的任意寡核苷酸。銜接體寡核苷酸可包含DNA、RNA、核苷酸類似物、非規範核苷酸、標記的核苷酸、修飾的核苷酸或其組合。銜接體寡核苷酸可以是單鏈、雙鏈或部分雙鏈體。一般而言,部分雙鏈體銜接體包含一個或多個單鏈區和一個或多個雙鏈區。雙鏈銜接體可包含兩個相互雜交的單獨的寡核苷酸(也被稱為「寡核苷酸雙鏈體」),且雜交可留下一個或多個平端、一個或多個3』突出端、一個或多個5』突出端、一個或多個由於錯配的和/或未配對的核苷酸而產生的凸起,或其任意組合。在一些實施方式中,單鏈銜接體包含兩個或多個能夠相互雜交的序列。當單鏈銜接體中包含兩個這樣的可雜交的序列時,雜交產生髮夾結構(髮夾銜接體)。當銜接體的兩個雜交區被非雜交區彼此分隔時,會產生「氣泡」結構。含有「氣泡」結構的銜接體可以由含有內部雜交的單個銜接體寡核苷酸組成,或可以包括彼此雜交的兩個或多個銜接體寡核苷酸。內部序列雜交,例如在一個銜接體中的兩個可雜交序列之間的內部序列雜交,可以在單鏈銜接體寡核苷酸中產生雙鏈結構。不同種類的銜接體可以組合使用,例如髮夾銜接體和雙鏈銜接體,或不同序列的銜接體。髮夾銜接體中的可雜交序列可以包括或可以不包括寡核苷酸的一個或兩個末端。當可雜交序列中不含有任何末端時,兩端為「游離的」或「突出的」。當只有一端可與銜接體中的另一序列雜交時,另一末端形成突出端,例如3』突出端或5』突出端。當可雜交序列中同時含有5』末端核苷酸和3』末端核苷酸,從而5』末端核苷酸和3』末端核苷酸彼此互補並雜交時,該末端被稱為「平端」。不同銜接體可以在相繼反應中或同時與靶多核苷酸連接。例如,可將第一和第二銜接體添加至同一反應。在與靶多核苷酸結合之前可以對銜接體進行操作。例如,可以添加或去除末端磷酸。在一些實施方式中,單鏈髮夾銜接體中的一個可雜交序列包含RNA。例如,銜接體可包含含有序列A的5』端和含有序列A』的3』端,其中A可與A』雜交,A或A』之一包含DNA,且A或A』中的另一個包含RNA。類似地,銜接體可包含含有序列B的5』端和含有序列B』的3』端,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA。在一些實施方式中,A或A』之一完全由DNA組成,和/或A或A』之一完全由RNA組成。在一些實施方式中,B或B』之一完全由DNA組成,並且/或者B或B』之一完全由RNA組成。序列A可以與序列B和/或B』相同或不同。序列A』可以與序列B和/或B』相同或不同。在一些實施方式中,包含RNA (例如A、A』、B或B』 )的髮夾的末端進一步包含一個或多個末端DNA殘基(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15個或更多個末端0嫩殘基),從而包含RNA的序列的側翼為在兩端(即包含RNA的序列的5』末端和3』末端)的DNA殘基。包含RNA的序列與包含DNA的序列雜交會產生RNA-DNA雜雙鏈體。在一些實施方式中,通過能夠從RNA-DNA雜雙鏈體上裂解RNA的酶,例如具有核糖核酸酶活性的酶,將RNA裂解。優選地,具有核糖核酸酶活性的酶裂解RNA/DNA雜雙鏈體中的核苷酸,而與待裂解的核糖核苷酸的相鄰核苷酸的身份和類型無關。優選地,核糖核酸酶不依賴於序列身份進行裂解。適用於本發明的方法和組合物的具有核糖核酸酶活性的合適的酶的例子是本領域熟知的,包括核糖核酸酶H(RNase H)和具有RNase H活性的酶,例如,雜交酶(Hybridase)。在一些實施方式中,從RNA-DNA雜雙鏈體上裂解RNA會從單鏈髮夾銜接體寡核苷酸上去除所有的雙鏈特徵,從而使得用銜接體作為模板的經由聚合酶的延伸不需要鏈置換步驟或鏈置換活性。在一些實施方式中,具有一個含RNA的末端的髮夾銜接體的兩端與靶多核苷酸連接,從而RNA從RNA-DNA雜雙鏈體上的裂解產生5』突出端或3』突出端。在一些實施方式中,通過從RNA-DNA雜雙鏈體上裂解RNA而產生的具有5』突出端的末端被使用5』突出端作為模板對產生的3』末端的延伸所補平(fill in)。在具有含RNA的3』末端的髮夾銜接體與雙鏈靶多核苷酸的兩個3』末端都連接的一些實施方式中,從RNA-DNA雜雙鏈體上裂解RNA後,寡核苷酸與在第一步驟中相連的銜接體序列雜交,並且雜交的寡核苷酸與雙鏈靶多核苷酸的5』末端連接,以產生在兩條鏈的兩個末端都含有非互補的、單鏈的突出端的靶多核苷酸。在兩條鏈的兩個末端都含有非互補的、單鏈的突出端的雙鏈靶多核苷酸的擴增可包括使用第一和第二引物,其中第一引物可與一個突出端雜交,而第二引物可與第一引物所雜交的鏈的另一末端的突出端的互補序列雜交。對在兩條鏈的兩個末端都含有非互補的、單鏈突出端的雙鏈靶多核苷酸的測序可包括使用可與一個或多個突出端或其互補序列雜交的一個或多個測序引物。圖5示出了產生在兩條鏈的兩個末端都含有非互補的、單鏈的突出端的雙鏈靶多核苷酸的說明性示例。銜接體可含有多種序列元件中的一個或多個,包括但不限於:一個或多個擴增引物退火序列或其互補序列;一個或多個測序引物退火序列或其互補序列;一個或多個條碼序列;在多種不同銜接體或不同銜接體的子集中共有的一個或多個通用序列;一個或多個限制性酶識別位點;與一個或多個靶多核苷酸突出端互補的一個或多個突出端;一個或多個探針結合位點(例如用於連接測序平臺,例如用於大量平行測序的流動池,例如由Illumina, Inc.開發的);一個或多個隨機或近隨機序列(例如在一個或多個位點處從一組兩個或多個不同核苷酸隨機選擇的一個或多個核苷酸,其中在一個或多個位點處選擇的每個不同核苷酸在包含該隨機序列的銜接體池中呈現);及其組合。兩個或多個序列元件可以彼此不相鄰(例如由一個或多個核苷酸間隔)、彼此相鄰、部分重疊或完全重疊。例如,擴增引物退火序列也可以作為測序引物退火序列。序列元件可位於或靠近3』端、位於或靠近5』端、或位於銜接體寡核苷酸內部。當銜接體寡核苷酸能夠形成二級結構,例如髮夾時,序列元件可部分或完全位於二級結構外部、部分或完全位於二級結構內部、或位於參與形成二級結構的序列之間。例如,當銜接體寡核苷酸包含髮夾結構時,序列元件可部分或完全位於可雜交序列(「莖」)外部或內部,包括位於可雜交序列之間的序列(「環」)中。在一些實施方式中,具有不同條碼序列的多個第一銜接體寡核苷酸中的第一銜接體寡核苷酸含有在所述多個第一銜接體寡核苷酸中的全部第一銜接體寡核苷酸之間共有的序列元件。在一些實施方式中,所有第二銜接體寡核苷酸含有在所有第二銜接體寡核苷酸之間共有的序列元件,該序列元件不同於由第一銜接體寡核苷酸所共有的共同序列元件。序列元件的差異可以為任意的,使得不同銜接體的至少一部分不完全對齊,例如,由於序列長度的改變、一個或多個核苷酸的缺失或插入、或在一個或多個核苷酸位點處的核苷酸組成的改變(例如鹼基變化或鹼基修飾)。在一些實施方式中,銜接體寡核苷酸包含與一個或多個靶多核苷酸互補的5』突出端、3』突出端、或此兩者。互補性突出端的長度可以是一個或多個核苷酸,包括但不限於1、2、3、4、5、6、7、8、9、10、11、12、13、14、15個或更多個核苷酸的長度。互補性突出端可以包含固定的序列。互補性突出端可以包含一個或多個核苷酸的隨機序列,從而一個或多個核苷酸在一個或多個位點處隨機選自一組兩個或多個不同核苷酸,其中在一個或多個位點處選擇的每個不同核苷酸在含有包含該隨機序列的互補性突出端的銜接體池中呈現。在一些實施方式中,銜接體突出端與通過限制性核酸內切酶消化而產生的靶多核苷酸突出端互補。在一些實施方式中,銜接體突出端由腺嘌呤或胸腺嘧啶組成。在一些實施方式中,一個或多個銜接體寡核苷酸包含SEQ ID NO:1。在一些實施方式中,一個或多個銜接體寡核苷酸包含SEQ ID N0:2。在一些實施方式中,所有第一銜接體寡核苷酸之間共有的序列元件包含SEQ ID NO:1或SEQ ID NO:2。在一些實施方式中,所有第二銜接體寡核苷酸之間共有的序列元件包含SEQ ID NO:1或SEQ ID NO:2。在一些實施方式中,SEQ ID NO:1或SEQ ID NO:2之一是所有第一銜接體寡核苷酸之間共有的,而SEQ ID NO:1或SEQ ID NO:2中的另一個是所有第二銜接體寡核苷酸之間共有的。在一些實施方式中,一個或多個銜接體寡核苷酸包含SEQ ID N0:3。在一些實施方式中,一個或多個銜接體寡核苷酸包含SEQ ID N0:4。在一些實施方式中,SEQ ID NO:3和/或SEQ IDNO -A的最3』核苷酸之後為條碼序列的一個或多個核苷酸。在一些實施方式中,含有寡核苷酸雙鏈體的銜接體包含具有SEQ ID NO:86的寡核苷酸和/或具有SEQ ID N0:87的寡核苷酸。在一些實施方式中,含有寡核苷酸雙鏈體的銜接體包含具有SEQ ID NO:88的寡核苷酸和/或具有SEQ ID NO:89的寡核苷酸。
銜接體寡核苷酸可以具有任何合適的長度,其至少足以容納其包含的一個或多個序列兀件。在一些實施方式中,銜接體的長度為約、少於約或多於約10、15、20、25、30、35、
40、45、50、55、60、65、70、75、80、90、100、200個或更多個核苷酸。在一些實施方式中,髮夾銜接體的莖的長度為約、少於約或多於約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、
30、35、40、45、50、75、100個或更多個核苷酸。可以使用導致髮夾銜接體上的互補區之間的雜交的多種不同序列來設計莖,從而產生雙鏈DNA的局部區域。例如,可以使用具有相等的G:C和A:T鹼基對呈現度的15-18個核苷酸長度的莖序列。預計這樣的莖序列能在低於其預測的解鏈溫度45°C時形成穩定的dsDNA結構。參與髮夾莖的序列可以是完全互補的,從而莖上一個區域的每個鹼基根據Watson-Crick鹼基配對法則通過氫鍵結合與莖上另一區域的每個鹼基雜交。或者,莖中的序列可以不完全互補。例如,在不遵循Watson-Crick鹼基配對法則由相對鹼基形成的莖結構中可以存在錯配和/或凸起,和/或在莖的一個區域中存在一個或多個核苷酸其在參與該莖的另一個區域中不具有一個或多個相對應的鹼基位點。錯配的序列可以使用識別錯配的酶進行裂解。髮夾的莖可包含DNA、RNA或DNA和RNA兩者。在一些實施方式中,髮夾的莖和/或環,或形成髮夾的莖的一個或兩個可雜交序列,包含作為裂解(例如被酶裂解)的底物的核苷酸、鍵或序列,所述酶包括但不限於核酸內切酶和糖基化酶。莖的組成可以使得只有一個形成莖的可雜交序列被裂解。例如,形成莖的序列之一可以含有RNA,而形成莖的另一序列由DNA組成,從而能裂解RNA-DNA雙鏈體中的RNA的酶例如RNase H所進行的裂解僅裂解含有RNA的序列。髮夾的莖和/或環可包含非規範核苷酸(例如尿嘧啶),和/或甲基化核苷酸。在一些實施方式中,髮夾銜接體莖的一條鏈包含SEQ ID NO:1或SEQ ID NO:2。在一些實施方式中,髮夾銜接體的環序列的長度為約、少於約或多於約5、10、15、20、25、30、35、40、45、50個或更多核苷酸。在此使用的術語「條碼」指允許鑑定該條碼連接的多核苷酸的一些特徵的已知核酸序列。在一些實施方式中,待鑑定的多核苷酸的特徵是該多核苷酸所來源的樣品。在一些實施方式中,條碼的長度為至少3、4、5、6、7、8、9、10、11、12、13、14、15個或更多個核苷酸。在一些實施方式中,條碼的長度短於10、9、8、7、6、5或4個核苷酸。在一些實施方式中,與一些多核苷酸連接的條碼和與其它多核苷酸連接的條碼具有不同的長度。一般而言,條碼具有足夠的長度,並含有足夠不同從而允許基於連接樣品的條碼對樣品進行鑑定的序列。在一些實施方式中,可以在該條碼序列中的一個或多個核苷酸的突變、插入或缺失後,例如1、2、3、4、5、6、7、8、9、10個或更多個核苷酸的突變、插入或缺失之後,精確地鑑定條碼及與之相關的樣品來源。在一些實施方式中,多個條碼中的每一個都在至少三個核苷酸位點處,例如在至少3、4、5、6、7、8、9、10個或更多位點處不同於所述多個條碼的所有其它條碼。在一些實施方式中,第一銜接體和第二銜接體都包含多個條碼序列中的至少一個。在一些實施方式中,用於第二銜接體寡核苷酸的條碼獨立地選自用於第一銜接體寡核苷酸的條碼。在一些實施方式中,具有條碼的第一銜接體寡核苷酸和第二銜接體寡核苷酸配對,從而該對的銜接體包含相同或不同的一個或多個條碼。在一些實施方式中,本發明的方法進一步包括基於靶多核苷酸連接的條碼序列來鑑定靶多核苷酸所來源的樣品。一般而言,條碼含有一種核酸序列,當該核酸序列與靶多核苷酸連接時其作為靶多核苷酸所來源的樣品的標識。在一些實施方式中,從中選擇條碼序列的多個條碼序列包括選自下組的序列:AAA、TTT、CCC、GGG。在一些實施方式中,從中選擇條碼序列的多個條碼序列包括選自下組的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC和TCGA。在一些實施方式中,從中選擇條碼序列的多個條碼序列包括選自下組的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTAA、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。在此關於兩個多核苷酸例如銜接體寡核苷酸和靶多核苷酸使用的術語「連接(joining) 」和「連接(ligation) 」,指的是兩個單獨的多核苷酸的共價連接以產生具有連續骨架的單個更大的多核苷酸。用於連接兩個多核苷酸的方法是本領域已知的,且包括但不限於,酶促和非酶促(例如化學)方法。非酶促的連接反應的示例包括描述於美國專利號5,780, 613和5,476,930中的非酶促連接技術,其在此引入作為參考。在一些實施方式中,通過連接酶例如DNA連接酶或RNA連接酶使銜接體寡核苷酸與靶多核苷酸連接。各自具有表徵的反應條件的多種連接酶是本領域已知的,且包括但不限於NAD+依賴的連接酶,包括tRNA連接酶、Taq DNA連接酶、Thermusfiliformis DNA連接酶、大腸桿菌DNA連接酶、TthDNA連接酶、Thermus scotoductus DNA連接酶(I和II)、熱穩定連接酶、Ampligase熱穩定DNA連接酶、VanC型連接酶、9° N DNA連接酶、Tsp DNA連接酶和通過生物勘探發現的新型連接酶;ATP依賴的連接酶,包括T4 RNA連接酶、T4 DNA連接酶、T3 DNA連接酶、T7 DNA連接酶、Pfu DNA連接酶、DNA連接酶1、DNA連接酶II1、DNA連接酶IV和通過生物勘探發現的新型連接酶;及其野生型、突變體同種型和遺傳工程變體。連接可在具有可雜交序列的多核苷酸例如互補性突出端之間發生。連接也可在兩個平端間發生。一般而言,5』磷酸在連接反應使用。5』磷酸可以由靶多核苷酸、銜接體寡核苷酸或二者一起提供。5』磷酸可根據需要添加至待連接的多核苷酸,或從中去除。用於添加或去除5』磷酸的方法是本領域已知的,且包括但不限於酶促和化學過程。可用於添加和/或去除5』磷酸的酶包括激酶、磷酸酶和聚合酶。在一些實施方式中,連接反應中連接的兩端(例如銜接體末端和靶多核苷酸末端)均提供5』憐酸,從而在兩個末端的連接中形成兩個共價鍵。在一些實施方式中,在連接反應中連接的兩端中只有一端(例如僅銜接體末端和靶多核苷酸末端之一)提供5』磷酸,從而在兩個末端的連接中只形成一個共價鍵。在一些實施方式中,在靶多核苷酸的一個或兩個末端處只有一條鏈與銜接體寡核苷酸連接。在一些實施方式中,在靶多核苷酸的一個或兩個末端處兩條鏈都與銜接體寡核苷酸連接。在一些實施方式中,在連接之前去除3』磷酸。在一些實施方式中,銜接體寡核苷酸被添加至靶多核苷酸的兩個末端,其中在每個末端處的一條或兩條鏈與一個或多個銜接體寡核苷酸連接。當兩個末端處的兩條鏈都與銜接體寡核苷酸連接時,可在連接後進行裂解反應,該裂解反應產生5』突出端,該5』突出端可以作為模板用於對應的3』末端的延伸,該3』末端可以包括或可以不包括來源於銜接體寡核苷酸的一個或多個核苷酸。在一些實施方式中,靶多核苷酸在一端與第一銜接體寡核苷酸連接,而在另一端與第二銜接體寡核苷酸連接。在一些實施方式中,靶多核苷酸及與之連接的銜接體包含平端。在一些實施方式中,使用不同的第一銜接體寡核苷酸對每個樣品進行單獨的連接反應,該第一銜接體寡核苷酸含有至少一種針對每個樣品的條碼序列,使得沒有條碼序列與多於一種樣品的靶多核苷酸連接。連接有銜接體寡核苷酸的靶多核苷酸被認為是由所連接的銜接體進行了 「標記」。在一些實施方式中,銜接體與靶多核苷酸的連接產生多核苷酸連接產物,該產物具有包含來自銜接體的核苷酸序列的3』突出端。在一些實施方式中,包括與3』突出端的全部或一部分互補的序列的引物寡核苷酸與該突出端雜交,並使用DNA聚合酶進行延伸,以生產與該多核苷酸連接產物的一條鏈雜交的引物延伸產物。DNA聚合酶可以包含鏈置換活性,從而使連接產物多核苷酸的一條鏈在引物延伸期間被置換。在一些實施方式中,在將至少一種銜接體寡核苷酸連接到祀多核苷酸之後,使用一個或多個連接銜接體寡核苷酸作為模板進行一個或多個靶多核苷酸的3』末端的延伸。例如,含有兩個雜交寡核苷酸且僅與靶多核苷酸的5』末端連接的銜接體允許使用銜接體的連接鏈作為模板進行靶標的未連接的3』端的延伸,這與未連接鏈的置換同時進行,或在其之後進行。如果含有兩個雜交寡核苷酸的銜接體的兩條鏈都與靶多核苷酸連接,使得連接產物具有5』突出端,那麼可以使用5』突出端作為模板延伸互補性3』端。作為進一步的示例,髮夾銜接體寡核苷酸可與靶多核苷酸的5』末端連接。雖然在二級結構中為雙鏈,但這樣的髮夾銜接體維持單鏈,因此是添加到靶多核苷酸上的5』突出端(例如當髮夾銜接體的5』末端未與靶多核苷酸連接時)。二級結構的去除,無論是在聚合酶活性之前(例如熱變性或降解)或與之同時(例如鏈置換),都提供了用於延伸靶多核苷酸互補鏈3』末端的模板。在一些實施方式中,所延伸的靶多核苷酸的3』末端包含來自銜接體寡核苷酸的一個或多個核苷酸。對於銜接體連接至其兩個末端的靶多核苷酸,可以對具有5』突出端的雙鏈靶多核苷酸的兩個3』末端進行延伸。該3』末端延伸或「補平」反應,產生了針對與模板雜交的銜接體寡核苷酸模板的互補性序列或「互補物」,從而補平了 5』的突出端,產生雙鏈序列區域。當雙鏈靶多核苷酸的兩個末端都具有通過互補鏈的3』末端延伸所補平的5』突出端時,產物是完全雙鏈的。延伸可以通過本領域已知的任何合適的聚合酶實現,例如DNA聚合酶,其中很多是商業可獲得的。DNA聚合酶可包含DNA依賴的DNA聚合酶活性、RNA依賴的DNA聚合酶活性或DNA依賴的和RNA依賴的DNA聚合酶活性。DNA聚合酶可以是熱穩定或非熱穩定的。DNA聚合酶的例子包括但不限於,Taq聚合酶、Tth聚合酶、Tli聚合酶、Pfu聚合酶、Pfutubo聚合酶、Pyrobest聚合酶、Pwo聚合酶、KOD聚合酶、Bst聚合酶、Sac聚合酶、Sso聚合酶、Poc聚合酶、Pab聚合酶、Mth聚合酶、Pho聚合酶、ES4聚合酶、VENT聚合酶、DEEPVENT聚合酶、EX-Taq聚合酶、LA-Taq聚合酶、Expand聚合酶、Platinum Taq聚合酶、H1-Fi聚合酶、Tbr聚合酶、Tfl聚合酶、Tru聚合酶、Tac聚合酶、Tne聚合酶、Tma聚合酶、Tih聚合酶、Tfi聚合酶、Klenow片段及其變體、修飾產物和衍生物。3』端延伸可以在合併來自獨立樣品的靶多核苷酸之前或之後進行。在一些實施方式中,補平反應之後使用第一引物和第二引物擴增一個或多個靶多核苷酸,或者作為該擴增的一部分進行補平反應,其中第一引物含有能與一個或多個第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中第二引物含有能與一個或多個第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。每個第一和第二引物可以是任何合適的長度,例如約、少於約或多於約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100個或更多個核苷酸,其任何部分或全部可以與對應的靶序列(例如約、少於約或多於約5、10、15、20、25、30、35、40、45、50個或更多個核苷酸)互補。「擴增」是指使靶序列的拷貝數增加的任何過程。用於引物指導的靶多核苷酸擴增的方法是本領域已知的,且包括但不限於,基於聚合酶鏈反應(PCR)的方法。有利於靶序列的PCR擴增的條件是本領域已知的,可以在過程中的多個步驟進行優化,且取決於反應中的元件的特徵,例如靶標類型、靶標濃度、待擴增的序列長度、靶標和/或一個或多個引物的序列、引物長度、引物濃度、使用的聚合酶、反應體積、一個或多個元件與一個或多個其它元件之比,以及其它,其中一些或全部可以改變。一般而言,PCR包括待擴增靶標的變性(如果是雙鏈的話)、一個或多個引物與靶標的雜交和通過DNA聚合酶進行引物延伸的步驟,其中重複(或「循環」)各步驟以擴增靶序列。可以針對多種結果,例如為了提高產率、減少假產物的形成和/或增加或降低引物退火的特異性,對該過程中的步驟進行優化。優化方法是本領域熟知的,包括對擴增反應中的元件的類型和量和/或對過程中給定步驟的條件(例如特定步驟的溫度、特定步驟的持續時間和/或循環數)的調整。在一些實施方式中,擴增反應包括至少5、10、15、20、25、30、35、50個或更多個循環。在一些實施方式中,擴增反應包括不多於5、10、15、20、25、35、50個或更多個循環。循環可具有任意個數的步驟,例如1、2、3、4、5、6、7、8、9、10個或更多個步驟。各步驟可包含適於完成該給定步驟的目的的任意溫度或溫度梯度,包括但不限於,3』末端延伸(例如銜接體補平)、引物退火、引物延伸和鏈變性。各步驟可具有任何持續時間,包括但不限於約、短於約或長於約1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600 秒或更多秒,包括不確定的持續時間,直至手工中斷。包括不同步驟的任意個數的循環可以任意順序組合。在一些實施方式中,將包括不同步驟的不同循環進行組合,使得該組合中的總循環數為約、少於約或多於約5、10、15、20、25、30、35、50個或更多個循環。在一些實施方式中,一個或多個引物含有SEQ ID ΝΟ:1。在一些實施方式中,一個或多個引物含有SEQ ID NO:2。在一些實施方式中,在補平反應後進行擴增。可以在對來自獨立樣品的靶多核苷酸進行合併之前或之後進行擴增。在一些實施方式中,在連接步驟後合併來自獨立樣品的靶多核苷酸。合併可以在連接步驟之後立即進行,或在連接和合併之間的一個或多個中間步驟之後立即進行。合併池可包含來自連接反應的總靶多核苷酸的任何部分,包括整個反應體積。可以均勻或不均勻地合併樣品。可以在合併之前或之後進一步處理靶多核苷酸,例如用以純化期望的產物或去除不期望的產物。合併池可包含來自任意數目的獨立樣品,例如至少2、3、4、5、6、7、8、9、10、12、16、20、24、28、32、36、40、50、60、70、80、90、100、128、192、384、500、1000 個或更多個樣品的多核苷酸。在一些實施方式中,基於靶多核苷酸所連接的條碼合併靶多核苷酸。在一些實施方式中,合併來自獨立樣品的靶多核苷酸,從而使得在合併池所包含的條碼中,在沿著條碼的一個或多個位點處均勻呈現所有四種鹼基。在一些實施方式中,合併來自獨立樣品的靶多核苷酸,從而使得在合併池所包含的條碼中,在沿著條碼的每個位點處均勻呈現所有四種鹼基。在只有一個條碼與每個樣品的多核苷酸連接時,樣品可以按照4的倍數進行合併,從而在沿著條碼的一個或多個位點處均勻呈現所有四種鹼基,例如4、8、12、16、20、24、28、32、36、40、44、48、52、56、60、64、96、128、192、256、384 等等。在對每個樣品的連接反應中包含兩個條碼,例如兩個不同的第一銜接體寡核苷酸或一個第一銜接體寡核苷酸和一個第二銜接體寡核苷酸各自都具有條碼時,樣品可以按照2的倍數進行合併,從而在沿著條碼的一個或多個位點處均勻呈現所有四種鹼基,例如2、4、6、8、10、12、14、16、18、20、22、24、48、64、96、128、256、384等等。本發明的方法涉及對來自每個樣品的靶多核苷酸的連接反應中所包含的條碼數的所有組合,以及為了在沿著條碼的一個或多個位點處均勻呈現所有四種鹼基而採用的樣品合併倍數。在一些實施方式中,合併靶多核苷酸之後對合併池中的一個或多個多核苷酸進行測序。測序過程一般為模板依賴的。當在模板介導的合成反應例如引物延伸反應過程中添加個體鹼基或一組鹼基時,利用模板依賴的合成的核酸序列分析對所述鹼基進行鑑別,其中鹼基的身份與合成過程中跟引物序列雜交的模板序列互補。其它這樣的過程包括連接驅動的過程,其中寡核苷酸或多核苷酸與潛在的模板序列複合,從而鑑定該序列中的核苷酸序列。一般地,此類過程是使用核酸聚合酶進行酶介導的,例如DNA聚合酶、RNA聚合酶、反轉錄酶等等,或其它酶類,例如對連接驅動的過程而言,例如,連接酶。使用模板依賴的合成的序列分析可以包括很多不同的過程。例如,在廣泛使用的四色Sanger測序方法中,使用一組模板分子產生一組互補性片段序列。在四種天然存在的核苷酸的存在下,用一個亞組的染料標記的終止子核苷酸例如雙脫氧核糖核苷酸進行引物延伸,其中每種類型的終止子(ddATP、ddGTP、ddTTP、ddCTP)包括不同的可檢測標記。結果產生了一組嵌套片段,其中片段在超出引物的序列中的每個核苷酸處終止,並以能夠鑑定終止核苷酸的方式進行標記。然後對嵌套片段群進行基於大小的分離,例如,使用毛細管電泳,並對連接每個不同大小的片段的標籤進行鑑定以確定終止核苷酸。結果,經過分離系統中的檢測器移動的標籤的序列提供了對合成片段的序列信息的直接讀出,且根據互補性,也提供了對潛在的模板信息的直接讀出(例如,參見美國專利號5,171,534,其在此出於任何目的而全文引入作為參考)。模板依賴的測序方法的其它例子包括合成測序方法,其中個體核苷酸在被加至伸長的引物延伸產物時迭代地進行鑑定。焦磷酸測序是合成測序方法的一個例子,其通過分析得到的合成混合物中測序反應副產物即焦磷酸的存在與否來鑑定核苷酸的引入。具體地,將引物/模板/聚合酶複合物與單一類型的核苷酸接觸。如果該核苷酸被引入,那麼聚合反應裂解三磷酸鏈的α和β磷酸之間的核苷三磷酸,從而釋放焦磷酸。然後使用化學發光酶報導系統鑑定釋放的焦磷酸的存在,所述化學發光酶報導系統將焦磷酸與AMP轉化為ΑΤΡ,然後通過使用螢光素酶產生可檢測的光信號來檢測ΑΤΡ。在檢測到光時,鹼基引入,檢測不到光時,鹼基不引入。在適當的洗滌步驟後,將多種鹼基循環地與複合物接觸,以連續鑑定模板序列中隨後的鹼基。例如,參見美國專利號6,210,891,其在此出於任何目的全文引入作為參考。在相關的方法中,引物/模板/聚合酶複合物被固定化於基質上,且複合物與標記的核苷酸接觸。複合物的固定化可通過引物序列、模板序列和/或聚合酶來進行,且可以是共價的或非共價的。例如,複合物的固定化可通過聚合酶或引物和基質表面之間的連接來實現。該附著可使用多種連接類型,例如,包括使用例如生物素-PEG-矽烷連接化學來提供生物素化的表面成分,繼而將待固定化的分子生物素化,然後通過例如鏈黴親和素橋進行連接。其它合成偶聯化學以及非特異性蛋白質吸附也可用於固定化。在備選的構型中,提供具有或不具有可去除的終止子基團的核苷酸。引入後,標籤與複合物偶聯,從而是可檢測的。對於攜帶終止子的核苷酸,單獨攜帶可識別標籤的所有四種不同核苷酸與複合物進行接觸。由於終止子的存在,標記核苷酸的引入阻止了延伸,並將標籤加至複合物上。然後從引入的核苷酸上去除標籤和終止子,並在適當的洗滌步驟後,重複該過程。對於非終止的核苷酸,向複合物中加入單一類型的標記核苷酸,以確定其是否將被引入,如焦磷酸測序一樣。在去除核苷酸上的標記基團和適當的洗滌步驟後,該多種不同核苷酸在相同過程中通過反應混合物進行循環。例如,參見美國專利號6,833,246,其在此以任何目的全文引入作為參考。例如,Illumina基因組分析儀系統基於WO 98/44151所描述的技術,在此引入作為參考,其中DNA分子通過錨探針結合位點(也稱為流動池結合位點)與測序平臺(流動池)結合併在載玻片上原位擴增。然後DNA分子與測序引物退火併使用可逆終止子方法逐個鹼基地平行測序。一般地,Illumina基因組分析儀系統利用8通道流動池,產生18-36個鹼基長度的測序讀數,每輪產生> 1.3Gbp的高質量數據(參見www.1llumina.com)。在又另一合成測序方法中,進行模板依賴的合成時對不同標記的核苷酸的引入進行實時觀察。具體地,在引入螢光標記的核苷酸時觀察固定化的個體引物/模板/聚合酶複合物,從而在每個鹼基加入時允許對每個加入的鹼基進行實時鑑定。在該過程中,將標記基團連接到在引入過程中被裂解的核苷酸的一部分上。例如,通過將標記基團連接到在引入過程中被去除的磷酸鏈的一部分上,即核苷聚磷酸上的α、β、Y或其它末端磷酸基團上,該標記沒有被引入新生鏈中,而是相反,產生了天然DNA。對個體分子的觀察一般涉及將複合物光學限制在一個非常小的照明體積內。通過光學限制該複合物,產生了監控區域,在該區域中隨機擴散的核苷酸存在非常短的時間,而引入的核苷酸在觀察體積內更久地保持,因為其正在被引入。這導致與引入事件相關聯的特徵信號,其特徵也在於所添加的鹼基特有的信號譜。在相關方面,在聚合酶或複合物的其它部分和引入的核苷酸上提供相互作用的標記成分,例如螢光共振能量轉移(FRET)染料對,以便引入事件能夠使標記成分交互接近(interactive proximity),並產生特徵信號,這同樣也是正在引入的鹼基所特有的(例如,參見美國專利號 6,056,661,6, 917,726,7, 033,764,7, 052,847,7, 056,676,7, 170,050、7,361,466,7,416,844和公開的美國專利申請號2007-0134128,其全部公開內容以任何目的在此全文引入作為參考)。在一些實施方式中,樣品中的核酸可以通過連接進行測序。該方法使用DNA連接酶來鑑定祀序列,例如,如在聚合酶克隆(polony)方法和SOLiD技術(AppliedBiosystems,現為Invitrogen)中使用的那樣。通常,提供一組所有可能的固定長度的寡核苷酸,根據測序的位點對其進行標記。將寡核苷酸退火和連接;通過DNA連接酶對匹配序列的優先連接產生對應於該位點處的互補序列的信號。在一些實施方式中,測序包括測序引物的延伸,該測序引物含有可與第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列。在一些實施方式中,測序包括測序引物的延伸,該測序引物含有可與第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。測序引物可以為任何適當的長度,例如約、少於約或多於約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100個或更多個核苷酸,其任意部分或全部可以與對應的靶序列互補(例如約、少於約或多於約5、10、15、20、25、30、35、40、45、50個或更多個核苷酸)。在一些實施方式中,測序引物含有SEQ ID NO:1或SEQ ID NO:2。在一些實施方式中,測序引物含有SEQ ID N0:5。在一些實施方式中,測序引物含有SEQ ID NO:6。在一些實施方式中,測序包括校正步驟,其中校正基於該條碼序列中一個或多個核苷酸位點處的每個核苷酸。校正可用於處理測序數據,例如,通過促進或增加序列中給定位點處的鹼基的鑑定準確性。在一些實施方式中,對於祀多核苷酸所源自的樣品的精確鑑定基於為祀多核苷酸獲得的序列的至少一部分,並且其精確度為至少90%、95%、96%、97%、98%、99%、99.5%,99.8%,99.85%,99.9%,99.95%,99.99%或更精確。在一些實施方式中,基於序列中所含的單一條碼對靶多核苷酸的樣品來源進行鑑定。在一些實施方式中,可以通過使用序列中含有的兩個或多個條碼鑑定靶多核苷酸的來源來提高精確度。可以通過將多個條碼引入靶多核苷酸所連接的單一銜接體中,和/或通過將具有一個或多個條碼的兩個或多個銜接體與靶多核苷酸連接,將多個條碼連接至靶多核苷酸。在一些實施方式中,可以使用其包含的僅一個條碼序列對含有兩個或多個條碼序列的靶多核苷酸的樣品來源的身份精確地進行鑑定。通常,對靶多核苷酸所源自的樣品的精確鑑定包括對來自合併池的兩個或多個樣品,例如合併池中的約、少於約或多於約2、3、4、5、6、7、8、9、10、12、16、20、24、28、32、36、40、50、60、70、80、90、100、128、192、384、500、1000個或更多個樣品的樣品來源進行正確鑑定。靶多核苷酸所源自的不同樣品可包括來自同一個體的多個樣品、來自不同個體的樣品或其組合。在一些實施方式中,樣品包含來自單一個體的多個多核苷酸。在一些實施方式中,樣品包含來自兩個或多個個體的多個多核苷酸。個體是靶多核苷酸可源自的任何有機體或其部分,其非限制性的例子包括植物、動物、真菌、原生生物、無核原生物、病毒、線粒體和葉綠體。樣品多核苷酸可分離自一個主體,例如源於該主體的細胞樣品、組織樣品或器官樣品,包括,例如培養的細胞系、活檢組織、血液樣品或含有細胞的流體樣品。主體可以是動物,包括但不限於諸如牛、豬、小鼠、大鼠、雞、貓、狗等動物,且通常為哺乳動物,例如人。樣品也可人工獲得,例如通過化學合成。在一些實施方式中,樣品包含DNA。在一些實施方式中,樣品包含基因組DNA。在一些實施方式中,樣品包含線粒體DNA、葉綠體DNA、質粒DNA、細菌人工染色體、酵母人工染色體、寡核苷酸標籤或其組合。在一些實施方式中,樣品包含使用任何合適的引物組合和DNA聚合酶通過引物延伸反應而產生的DNA,該反應包括但不限於聚合酶鏈反應(PCR)、反轉錄及其組合。當引物延伸反應的模板為RNA時,反轉錄產物被稱為互補DNA(cDNA)。用於引物延伸反應的引物可包含對於一個或多個靶標、隨機序列、部分隨機序列及其組合為特異性的序列。適合引物延伸反應的反應條件是本領域已知的。通常,樣品多核苷酸包含樣品中存在的任何多核苷酸,其可以包括或可以不包括靶多核苷酸。提取和純化核酸的方法是本領域熟知的。例如,可以通過用苯酚、酚/氯仿/異戊醇或包括TRIzoI和TriReagent在內的類似試劑進行有機提取來純化核酸。提取技術的其它非限制性的示例包括:(I)有機提取後進行乙醇沉澱,例如,使用酚/氯仿有機試劑(Ausubel等,1993),其使用或不使用自動核酸提取儀,例如,可獲自AppliedBiosystems (Foster City, Calif.)的341型DNA提取儀;(2)固定相吸附法(美國專利號5,234,809 ;Walsh等,1991);和(3)鹽誘導的核酸沉澱法(Miller等,(1988),此類沉澱法一般稱為「鹽析」法。核酸分離和/或純化的另一例子包括使用可以特異性或非特異性結合核酸的磁性顆粒,繼而使用磁體分離磁珠,並從磁珠上洗滌和洗脫核酸(例如參見美國專利號5,705,628)。在一些實施方式中,上述分離方法之前可以為酶消化步驟以幫助消除樣品中不需要的蛋白質,例如用蛋白酶K或其它類似蛋白酶消化。例如,參見美國專利號7,001,724。如果需要的話,可以向裂解緩衝液中添加RNase抑制劑。對於某些細胞或樣品類型,可能需要在流程中加入蛋白質變性/消化步驟。純化方法可涉及分離DNA、RNA或兩者。當在提取過程中或之後DNA和RNA被一起分離出來時,可以採用進一步的步驟來彼此分開地純化其中一種或兩種。也可產生所提取的核酸的子級分,例如,通過大小、序列或其它物理或化學特性進行純化。除了初始的核酸分離步驟外,還可以在本發明的方法中的任意步驟之後進行核酸的純化,例如用以去除過量的或不需要的試劑、反應物或產物。在一些實施方式中,將樣品多核苷酸片段化為一群片段化的一個或多個特定大小範圍的插入DNA分子。在一些實施方式中,片段產生自至少約1、10、100、1000、10000、100000,300000,500000或更多基因組當量的起始DNA。片段化可通過本領域已知的方法實現,包括化學、酶促和機械片段化。在一些實施方式中,片段具有約10至約10,000個核苷酸的平均長度。在一些實施方式中,片段具有約50至約2,000個核苷酸的平均長度。在一些實施方式中,片段具有約 100-2,500,10-1, 000、10-800、10-500、50-500、50-250 或 50-150個核苷酸的平均長度。在一些實施方式中,片段具有少於500個核苷酸,例如少於400個核苷酸、少於300個核苷酸、少於200個核苷酸或少於150個核苷酸的平均長度。在一些實施方式中,片段化以機械的方式完成,包括對樣品多核苷酸進行超聲處理。在一些實施方式中,片段化包括用一種或多種酶在適於該一種或多種酶產生雙鏈核酸斷裂的條件下處理樣品多核苷酸。用於產生多核苷酸片段的酶的例子包括序列特異性和非序列特異性的核酸酶。核酸酶的非限制性示例包括DNase 1、片段化酶、限制性核酸內切酶、其變體及其組合。例如,在不存在Mg++和存在Mn++的情況下用DNase I消化可以誘導DNA中的隨機雙鏈斷裂。在一些實施方式中,片段化包括用一種或多種限制性核酸內切酶處理樣品多核苷酸。片段化可以產生具有5』突出端、3』突出端、平端或其組合的片段。在一些實施方式中,例如當片段化包括使用一種或多種限制性核酸內切酶時,樣品多核苷酸的裂解會產生具有可預測序列的突出端。在一些實施方式中,該方法包括通過標準方法例如柱純化或從瓊脂糖凝膠分離對片段進行大小選擇的步驟。在一些實施方式中,片段化DNA的5』和/或3』端核苷酸序列在與一個或多個銜接體寡核苷酸連接之前不進行修飾。例如,可以使用限制性核酸內切酶片段化產生可預測的突出端,隨後與一個或多個含有與DNA片段上的可預測突出端互補的突出端的銜接體寡核苷酸連接。在另一個例子中,在用能夠產生可預測的平端的酶裂解之後,可以進行平端DNA片段與含有平端的銜接體寡核苷酸的連接。在一些實施方式中,在與銜接體連接之前對片段化的DNA分子進行平端補齊(blunt-end polish)(或「末端修復」)以產生具有平端的DNA片段。可以通過與合適的酶進行孵育來完成平端補齊步驟,該酶例如是同時具有3' -5'核酸外切酶活性和5' -3'聚合酶活性的DNA聚合酶,例如T4聚合酶。在一些實施方式中,末端修復之後添加 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20 個或更多核苷酸,例如一個或多個腺嘌呤、一個或多個胸腺嘧啶、一個或多個鳥嘌呤、或一個或多個胞嘧啶,以產生突出端。具有突出端的DNA片段可與具有互補性突出端的一個或多個銜接體寡核苷酸連接,例如在連接反應中。例如,可使用不依賴於模板的聚合酶將單個腺嘌呤添加至末端修復的DNA片段的3』末端,隨後與一個或多個銜接體連接,每個銜接體都在3』端具有胸腺嘧啶。在一些實施方式中,銜接體寡核苷酸可與平端雙鏈DNA片段分子連接,所述平端雙鏈DNA片段分子已經通過3』端延伸一個或多個核苷酸以及隨後的5』磷酸化而得到修飾。在一些情況下,可以在含有鎂的合適的緩衝液中,在一種或多種dNTP的存在下,使用聚合酶,例如Klenow聚合酶或在此提供的任意合適的聚合酶,或使用末端脫氧核苷酸轉移酶,進行3』末端的延伸。在一些實施方式中,具有平端的靶多核苷酸與含有平端的一個或多個銜接體連接。可以在含有ATP和鎂的合適的緩衝液中使用例如T4多核苷酸激酶進行DNA片段分子的5』端的磷酸化。可以任選地處理片段化的DNA分子以對5』端或3』端去磷酸,例如,通過使用本領域已知的酶,例如磷酸酶。在一些實施方式中,多個獨立樣品中的每一個都包含至少約lpg、10pg、100pg、lng、10ng、20ng、30ng、40ng、50ng、75ng、lOOng、150ng、200ng、250ng、300ng、400ng、500ng、1μ g、l.5μ g、2y g或更多的核酸材料。在一些實施方式中,多個獨立樣品中的每一個都包含少於約 lpg、10pg、lOOpg、lng、10ng、20ng、30ng、40ng、50ng、75ng、lOOng、150ng、200ng、250ng、300ng、400ng、500ng、I μ g、1.5 μ g、2 μ g 或更多的核酸。另一方面,本發明提供了可用於上述方法的組合物。本發明的組合物可包含任何一種或多種在此描述的元件。在一個實施方式中,組合物包含多個靶多核苷酸,每個靶多核苷酸包含選自多個條碼序列的一個或多個條碼序列,其中所述靶多核苷酸來自兩個或多個不同樣品,並且進一步地,其中可在組合測序反應中基於所述靶多核苷酸的序列中所含的單一條碼以至少95%的準確度對每個所述多核苷酸所源自的樣品進行鑑定。在一些實施方式中,組合物包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。一方面,本發明提供了含有上述方法和組合物中公開的任何一種或多種元件的試劑盒。在一些實施方式中,試劑盒在一個或多個容器中包含本發明的組合物。在一些實施方式中,本發明提供了包含在此描述的銜接體、引物和/或其它寡核苷酸的試劑盒。在一些實施方式中,該試劑盒還包含以下一種或多種:(a) DNA連接酶,(b) DNA依賴的DNA聚合酶,(c)RNA依賴的DNA聚合酶,(d)隨機引物,(e)在3』端包含至少4個胸苷的引物,(f)DNA核酸內切酶,(g)具有3』到5』核酸外切酶活性的DNA依賴的DNA聚合酶,(h)多個引物,每個引物具有多個選定序列之一,(i)DNA激酶,(j)DNA核酸外切酶,(k)磁珠,(I)具有RNaseH活性的酶,(m) RNA連接酶,和(η)適合所述試劑盒中包含的一種或多種元件的一種或多種緩衝液。銜接體、引物、其它寡核苷酸和試劑可以為但不限於任意上述公開的內容。該試劑盒的元件還可以以上述任何量和/或組合(例如在同一試劑盒中或同一容器中)進行提供,但不限於此。該試劑盒可進一步包含額外的試劑,例如上述那些,以供根據本發明方法使用。該試劑盒元件可在任何合適的容器中提供,包括但不限於試管、小瓶、燒瓶、瓶子、安瓿、注射器等等。試劑可按照可以直接在本發明的方法中使用的方式提供,或按照使用之前需要準備的方式提供,例如以凍幹劑的重構形式。試劑可以以小份的方式提供,以用於單次應用,或以大份(stock)的方式提供,可從其獲得多次應用,例如在多個反應中使用。在一個實施方式中,該試劑盒包含多個第一銜接體寡核苷酸及其使用說明,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。含有不同條碼序列的第一銜接體可單獨提供,或與一種或多種額外的具有不同條碼序列的第一銜接體組合提供。在一些實施方式中,該試劑盒進一步包含多個第二銜接體寡核苷酸。第二銜接體寡核苷酸可以單獨提供,或與一個或多個第一銜接體和/或一個或多個不同的第二銜接體組合提供。第一和第二銜接體的組合可以按照上述組合進行提供。
實施例下述實施例是出於描述本發明的多個實施方式的目的而給出的,並不意味著以任何方式限制本發明。這些實施例和在此描述的方法是優選實施方式的現有代表,是示例性的,並不意味著對本發明的範圍進行限制。本領域技術人員將會想到包含在由權利要求範圍定義的本發明精神內的改變和其它應用。
實施例1:樣品核酸的片段化和修複本實施例中使用的包含靶多核苷酸的樣品(「樣品」)是人基因組DNA。為了將核酸片段化,將I μ g_5 μ g在120 μ L的TE中稀釋,並使用Covaris S系列聲波儀(Covaris,Inc.)對稀釋液進行機械片段化,其參數如下:工作周期=10,強度=5,循環/爆發=100,時間=10 分鐘,樣品體積=120 μ L。用 SPRI 珠(Beckman Coulter, Inc.),以 1: 1.8(樣品:珠)的比例純化片段化的核酸。用40μ L的TE從珠上洗脫DNA,並對其進行定量,例如通過使用Nanodrop、Quibit或類似DNA定量設備,或通過分光光度法。然後使用特異性消除突出端並將末端殘基恢復為合適的5』磷酸化和3』羥基構型的酶混合物,對具有5』突出端、3』突出端、非磷酸化的3』端和/或磷酸化的3』端的片段化產物進行末端修復。對使用Quick Blunting 試劑盒(New England Biolabs, Inc.)的末端修復而言,將 100_200ng 片段化的DNA與1.25 μ LlOX快速平端緩衝液、1.25 μ LlmMdNTP混合物和水混合至終體積為12 μ L0將該組合進行充分混合,在管中旋轉,並加入0.5 μ L的快速平端酶(Τ4 DNA聚合酶和Τ4多核苷酸激酶的組合),然後在室溫下孵育30分鐘,並於70°C滅活10分鐘。根據本實施例的方法製備的核酸可儲存在_20°C,或立即用於接下來的連接反應以將靶多核苷酸片段與銜接體連接。該過程中的各步驟的圖示,包括片段化、末端修復、銜接體連接、銜接體補平、擴增和測序,在圖1中示出。
實施例2:靶多核苷酸與銜接體的比例對文庫構建的影響本實施例考察了靶多核苷酸與銜接體的不同比例對構建銜接體標記的靶多核苷酸集合(或「文庫」)的影響。本實施例中使用的包含靶多核苷酸的樣品(「樣品」)如實施例I所述製備。本實施例中的第一銜接體由SEQ ID NO:7組成。第二銜接體由SEQ ID NO:8組成。本實施例的擴增步驟中使用的引物之一由SEQ ID NO:9組成,而引物對中的另一個引物由SEQ ID N0:10組成。連接反應物如此製備,使得每個含有10 μ L 2Χ連接緩衝液、4 μ L樣品核酸、4 μ L組合的銜接體、I μ L的水(在缺少樣品或銜接體的反應中為5 μ L)和I μ L連接酶。除了緩衝液、水和連接酶外,檢測的反應物還包括:無樣品(反應1-4),20ng樣品(反應5-8),和200ng樣品(反應9-12)與(按照反應順序)I μ M銜接體、0.2 μ M銜接體、0.04 μ M銜接體或0.008 μ M銜接體混合。除了緩衝液、水和連接酶外,另外的對照按反應序號由以下組成:(13) 200ng的樣品不加銜接體,(14) 200ng的樣品只加I μ M第一銜接體,(15)200叩的樣品只加11^第二銜接體,(16)只有水,(17)只有I μ M第一銜接體,和(18)只有I μ M第二銜接體。連接反應物於室溫下孵育10分鐘。然後對連接產物進行擴增步驟,其中每個擴增反應含有3μ L水、2μ L5X PCR緩衝液、I μ L 25mM MgC12、I μ LlO μ M第一引物、I μ L 10μ M 第二引物、0.5μ L IOmM dNTP.0.5μΜ DMS0、0.1 μ L Expand 酶混合物、0.1 μ L Taq聚合酶和I μ L的一種連接反應物。然後使擴增反應混合物經歷下述熱循環程序:72°C 2分鐘,95°C 2分鐘,I個循環;95°C 30秒,60°C 30秒,72°C I分鐘,10個循環;950C 30秒,60°C 30秒,72°C 70秒,20個循環;72°C 7分鐘;在10°C下保持直至下一步。該過程的第一個循環可使用與5』末端連接的銜接體作為模板來延伸靶多核苷酸的3』末端(「補平」反應),從而產生雙鏈DNA銜接體標籤。在熱循環的最後,往每個反應中加入2 μ L的6Χ加樣染料,並將5 μ L所得到的混合物加樣至在TAE中的2 %瓊脂糖凝膠上。對凝膠成像,以顯示由連接和擴增產生的DNA產物。樣品結果示於圖2Α中。圖2Α的上半部分在自左至右的泳道中包含:分子量標準(ladder)、反應1_9和分子量標準。圖2A的下半部分在自左至右的泳道中包含:分子量標準、反應10-18和分子量標準。泳道1-4和13-18表明,兩種樣品核酸和兩種銜接體都是有效擴增靶多核苷酸所需要的。圖2B除了含有分子量標準的泳道外,還以自左至右的順序提供了反應1-12的並排比較。結果表明,在這些條件下,可以使用第一和第二髮夾銜接體來獲得擴增的文庫,較高的樣品量會降低引物二聚體的形成,且隨著銜接體輸入的減少,擴增產率維持相對恆定。
實施例3:條碼化的銜接體和樣品來源鑑定使用標準方法從來源於16名個體的樣品中分離核酸。分離的多核苷酸樣品獨立地按實施例1所述進行處理。然後如實施例2所述將銜接體連接到靶多核苷酸,其中每個樣品與具有不同條碼的第一銜接體和由SEQ ID NO:8組成的第二銜接體連接。第一銜接體被獨立地分配給每個樣品,並具有SEQ ID NO:11-26所提供的序列。然後如實施例2所述,通過使用銜接體序列作為模板進行3』末端延伸,對具有含銜接體序列的5』突出端的靶多核苷酸進行補平。然後同樣如實施例2所述,使用一對引物對靶多核苷酸進行PCR擴增,一條引物含有SEQ ID NO:84,而另一條引物含有SEQ ID NO:85。然後合併擴增產物,並按照Illumina的Solexa測序平臺對其進行測序(例如參見www.1llumina.com)。然後基於測序閱讀中所含的條碼對合併的測序數據進行剖析,產生16個箱元(bin)的測序數據。然後將各個箱元進行組裝,如同其各自是獨立運行的一樣,為來自單一合併的測序反應的16個獨立樣品提供分類的和比對的測序數據。
實施例4:含有異雙鏈體的髮夾銜接體的應用在本實施例中使用的包含靶多核苷酸的樣品(「樣品」)如實施例1所述製備。具有涉及兩端、形成平端結構的莖的第一和第二髮夾銜接體寡核苷酸如實施例2所述與靶多核苷酸連接。對於只具有5』磷酸的靶多核苷酸,只有銜接體的3』端與靶標連接。如圖3所示,銜接體5』末端的可雜交區域包含RNA,而5』末端所雜交的序列則包含DNA。連接後,RNaseH裂解RNA-DNA雜雙鏈體的RNA,去除來自連接的銜接體的二級結構。然後DNA聚合酶使用連接的銜接體剩下的序列作為模板延伸靶多核苷酸的3』末端,該步驟不需要任何鏈置換。按照實施例2所述進行該步驟,隨後也可以使用與來自銜接體的序列雜交的引物進行擴增步驟。然後使用與來自銜接體的序列雜交的測序引物對得到的銜接體標記的寡核苷酸進行測序。在圖3和圖4中,SI(莖I的一半)可與SI』(莖I的另一半)雜交,S2(莖2的一半)可與S2』(莖2的另一半)雜交,LI是第一銜接體寡核苷酸的環序列,L2是第二銜接體寡核苷酸的環序列。類似地,在圖5中,SI可與SI』雜交,LI是銜接體寡核苷酸的環序列。出於這些解釋的目的,序列S1、S1』、S2和S2』分別對應於如上所述的序列A、A』、B 和 B,。
實施例5:對多種髮夾銜接體設計的連接效率的評價在該實施例中,對具有不同核苷酸組成的髮夾銜接體寡核苷酸與靶多核苷酸的連接效率進行了評價。每個連接反應包括靶多核苷酸和一對銜接體,其中所述對中的每個成員都具有不同的序列,但是共享指定的特徵。如圖7所示,該多種設計自左至右為:平端dU銜接體、胸腺嘧啶-突出端銜接體(與平端靶多核苷酸連接)、胸腺嘧啶-突出端銜接體(與末端修復的靶多核苷酸連接,所述靶多核苷酸經修飾具有3』腺嘌呤單鹼基突出端)、雙鏈體髮夾銜接體和平端全DNA銜接體。平端dU銜接體在銜接體環的最5』端包括脫氧尿嘧啶核苷酸的二核苷酸(例如SEQ ID NO:27和SEQ ID NO:28)。使用UDG+APE1對連接材料的處理為接下來的補平反應裂解了 U鹼基並打開了環(剩下的莖在補平反應所使用的72°C溫度下解離)。胸腺嘧啶-突出端銜接體包括具有單胸腺嘧啶核苷酸的3』突出端的全DNA序列(例如SEQ ID N0:35和SEQ ID N036)。雙鏈體髮夾銜接體包括與短核苷酸(例如SEQID NO:39)雜交的具有莖和3』突出端的第一或第二髮夾寡核苷酸(例如SEQ ID NO:37和SEQ ID NO:38),所述雜交包括短核苷酸的5』端與髮夾寡核苷酸的3』端雜交以形成有效地具有單鏈斷裂的莖。平端全DNA銜接體由DNA組成,其內部雜交形成平端髮夾(例如SEQID NO:40和SEQ ID NO:41)。示例性的銜接體序列由SEQ ID NO:27-43提供。人基因組DNA按照實施例1進行片段化。為了對片段化的基因組DNA進行末端修復,將52 μ L 191ng/μ L片段化的人基因組DNA與20 μ LlOX快速平端緩衝液、20 μ L IOXdNTP和100 μ L水混合,其在進一步添加8 μ L快速平端酶混合物之前進行混合。末端修復反應在室溫下孵育30分鐘,75°C下20分鐘。為了與胸腺嘧啶-突出端銜接體連接,通過添力口 2 μ L IOmM dATP (終濃度為 0.2mM)和 8 μ L 的 Klenow(3,- > 5』 外切陰性)並在 37°C下孵育30分鐘,然後75 °C 20分鐘,對100 μ L末端修復的DNA進行修飾,使其具有單腺嘌呤核苷酸的3』突出端(「加尾」)。連接反應物的製備過程為合併10 μ L 2Χ連接緩衝液、4 μ L末端修復的DNA或加尾的DNA (共約200ng)、濃度為10 μ M的各0.2 μ L的成對的第一和第二銜接體和5 μ L水,然後進行混合,加入I μ L的T4DNA連接酶,並在室溫下孵育10分鐘。對於使用平端dU銜接體的連接反應,加入I μ L的尿嘧啶DNA糖基化酶(UDG)和無嘌呤核酸內切酶(APE)的混合物,隨後在37°C下孵育10分鐘。連接並在標明的位置裂解後,準備兩個重複的反應,用於對每個銜接體類型的連接反應通過3』末端延伸補平5』突出端。使用一對擴增引物(SEQ ID NO:42和SEQ ID NO:43)通過PCR進一步擴增每個重複補平反應中的一個,而每個重複中的另一個則用於測定連接效率。每個補平/擴增反應含有8μ L水、2 μ L IOX擴增緩衝液、2 μ L25mM MgCl2、濃度為10 μ M的2 μ L每種擴增引物、2 μ L的一種連接反應物、I μ L DMSOUuL IOmM dNTP和0.2 μ L Taq聚合酶。補平/擴增反應物在72°C下孵育2分鐘。擴增包括20個循環的94°C 30秒、60°C 30秒和72°C I分鐘。將擴增反應物的等份在瓊脂糖凝膠上電泳,其結果在圖7中示出。通過定量PCR(qPCR)測定連接效率。連接效率定義為作為輸入被添加至文庫構建的靶分子在最終擴增的文庫中的百分比。通過使用已存在的已知化合物及濃度的文庫作為標準對其進行測定。使用該文庫的稀釋液來產生qPCR反應中的標準曲線。為了檢測未知物,在末端修復、連接和補平後去除了經計算的部分靶輸入。將來自該樣品的qPCR信號標繪於標準曲線上,以確立正確連接的分子的量。測得的信號和已知輸入之間的差異確立了連接效率。qPCR反應混合物包括12.5μ L 2Χ SYBR混合物(Clontech Laboratories,Inc.)、濃度為IOyM的0.5yL每種擴增引物、5yL模板(補平反應物的1/10稀釋液、補平反應物的1/100稀釋液、文庫標準或用於無模板對照的水)和6.5 μ L水。使用標準方法進行qPCR反應物的擴增,每個銜接體設計的連接效率在圖7中在各自設計的說明的下方給出。簡而言之,對於平端dU銜接體、胸腺嘧啶-突出端銜接體(連接至平端的靶多核苷酸)、胸腺嘧啶-突出端銜接體(連接至末端修復的靶多核苷酸,該靶多核苷酸經修飾具有3』腺嘌呤單鹼基突出端)、雙鏈體髮夾銜接體和平端全DNA銜接體,效率分別為約0.48%、0.0035%、0.20%,0.22%和0.22%。所有銜接體對都生成了可比的PCR擴增產物。通過瓊脂糖凝膠分析對連接產物的檢測表明存在很少或不存在銜接體二聚體。含有約為預期大小的靶插入片段的擴增產物也得到確認。圖8顯示了多種反應物的樣品的凝膠,自左至右的泳道內容物如下:末端修復的人基因組DNA、平端全DNA銜接體、末端修復的和A-加尾的DNA、胸腺嘧啶突出端銜接體、分子量標準、不含銜接體的連接的末端修復的DNA、與平端全DNA銜接體連接的末端修復的DNA、不連接銜接體的末端修復的和A-加尾的DNA、與胸腺嘧啶突出端銜接體連接的末端修復的和A-加尾的DNA、和分子量標準。在一些實施方式中,一對雙鏈體銜接體中的第一雙鏈體銜接體包括具有莖和3』突出端的第一髮夾寡核苷酸,該3』突出端包含與短配偶寡核苷酸雜交的條碼,所述短配偶寡核苷酸包含與包括條碼的3』突出端的全部或一部分互補的序列。包括兩個寡核苷酸的雙鏈體銜接體可具有5』或3』突出端,或在雙鏈體中的兩個寡核苷酸雜交時可具有平末端。第一雙鏈體銜接體可以與第二雙鏈體銜接體配對,該第二雙鏈體銜接體與第一雙鏈體銜接體相同或不同,且第二雙鏈體銜接體可以含有或可以不含有條碼。一般而言,第二雙鏈體銜接體可以包括具有莖和與短核苷酸雜交的3』突出端的髮夾寡核苷酸,從而雜交的寡核苷酸一起形成具有5』或3』突出端或平端的銜接體。包含具有條碼並與短配偶寡核苷酸配對的髮夾寡核苷酸的第一雙鏈體銜接體的例子包括下述序列對:SEQ ID N0:44與SEQ ID NO:45、SEQ ID N0:46 與 SEQ ID NO:47、SEQ ID NO:48 與 SEQ ID NO:49、SEQ ID NO:50 與 SEQ IDNO:5USEQ ID NO:52 與 SEQ ID NO:53、SEQ ID N0:54 與 SEQ ID NO:55、SEQ ID NO:56 與SEQ ID NO:57、SEQ ID NO:58 與 SEQ ID NO:59、SEQ ID NO:60 與 SEQ ID NO:61、SEQ IDN0:62 與 SEQ ID NO:63、SEQ ID N0:64 與 SEQ ID NO:65、SEQ ID NO:66 與 SEQ ID NO:67、SEQ ID N0:68 與 SEQ ID NO:69、SEQ ID NO:70 與 SEQ ID NO:71、SEQ ID NO:72 與 SEQ IDN0:73和SEQ ID NO:74與SEQ ID NO:75。在這些序列中,通過雙鏈體銜接體中每對寡核苷酸的髮夾寡核苷酸的3』端的四種鹼基來呈現條碼,並通過雙鏈體銜接體中每對寡核苷酸的短配偶寡核苷酸的5』端的四種鹼基來呈現條碼的互補序列。一般而言,一對中的每個髮夾寡核苷酸與對應的短配偶寡核苷酸以1:1的比例混合。
實施例6:對含有RNA的髮夾銜接體的連接效率的評價在該實施例中,如實施例5所述,對具有不同核苷酸組成的髮夾銜接體寡核苷酸與靶多核苷酸的連接效率進行了評價。每個連接反應包括靶多核苷酸和一對銜接體,其中所述對中的每個成員都具有不同的序列,但是共享指定的特徵。銜接體對包括平端全DNA銜接體和具有DNA = DNA末端的平端RNA銜接體。平端全DNA銜接體由DNA組成,其內部雜交形成平端髮夾(SEQ ID NO:76和SEQ ID NO:77)。具有DNA = DNA末端的平端RNA銜接體包括莖,其一條鏈在含5個5』末端DNA鹼基的5』末端具有10個RNA鹼基,該鏈與全DNA的第二鏈(SEQ ID NO:80和SEQ ID NO:81)雜交。使用一對擴增引物(SEQ ID NO:82和SEQ ID NO:83)進行使用這些銜接體的連接反應物的擴增。銜接體和擴增引物序列的例子由 SEQ ID NO:76-83 提供。片段化的靶多核苷酸按照實施例5所述製備。片段化的DNA如實施例1所述進行末端修復,其中對每個反應合併4.2μ L 47.5ng/μ L片段化的基因組DNA、1.25 μ L IOX快速平端緩衝液、1.25 μ L ImM dNTP,5.3 μ L水,將其混合,並加入0.5 μ L快速平端酶。末端修復反應然後在室溫(例如20°C -27°C )下孵育30分鐘,然後在70°C下孵育10分鐘。連接反應準備一式兩份,使用全12.5 μ L的末端修復反應,合併12.5 μ L 2Χ快速連接酶緩衝液、濃度為10 μ M的各0.25 μ L銜接體對中的銜接體和1.25 μ L的快速連接酶。在擴增之前將連接反應在室溫下孵育10分鐘。在開始擴增過程前,用擴增反應混合物中的RNase H處理各重複中的一個連接反應物。然後對用RNase H處理的和未處理的反應物進行5』突出端補平和連接產物擴增。未用RNase H處理的樣品包括59 μ L水、10 μ L IOx PCR緩衝液、3μ L 50mM MgCl2、濃度為 10 μ M 的各 5 μ L 每種擴增引物、5 μ LDMS0、2 μ L 1mM dNTP U μ LTaq聚合酶和10 μ L連接的模板。接受RNase H處理的樣品包括58 μ L水、10 μ L IOx PCR緩衝液、3 μ L 50mMMgCl2、濃度為 10 μ M 的各 5 μ L 每種擴增引物、5 μ L DMS0、2 μ L IOmMdNTP、IyL Taq聚合酶、I μ I RNase H和10 μ L連接的模板。對於接受RNase H處理的樣品,在用於擴增的熱循環之前於37°C孵育10分鐘(用作定量基準的非擴增的、RNase H處理的樣品包括額外的72°C下2分鐘的步驟,和10°C的維持步驟)。然後使擴增反應混合物經歷下述熱循環程序以用於補平和擴增:72°C 2分鐘,I個循環;94°C 45秒、55°C 30秒和72°C 90秒,20個循環;72°C 7分鐘,I個循環;和10°C維持。含有8 μ L PCR擴增反應樣品的2%瓊脂糖凝膠在圖9中示出,其泳道自左至右對應於具有DNA: DNA末端的平端RNA銜接體連接產物、平端全DNA銜接體連接產物、和DNA分子量標準。銜接體的3』末端與靶標的5』末端之間的連接、靶DNA在一個末端的RNase H處理(在適用情況下)、補平和擴增反應的示意圖在圖10中提供。如實施例5所述,採用或不採用RNase H處理,檢測每對銜接體的連接效率。本實施例中的每個qPCR反應包含5yL2X SYBR GreenMix、各0.4 μ L的每種擴增引物、2.2 μ L水和2 μ L稀釋的連接反應物,每個qPCR反應總體積為10 μ L。RNase H處理的平端全DNA銜接體、未經RNase H處理的平端全DNA銜接體、RNase H處理的具有DNA = DNA末端的平端RNA銜接體和未經RNase H處理的具有DNA = DNA末端的平端RNA銜接體的連接效率分別為0.20%,0.37%,0.28%和0.13%。成功連接和擴增的片段可用作下一代序列文庫。雖然在此展示和描述了本發明優選的實施方式,但是對本領域技術人員而言顯然這些實施方式是僅以示例的方式給出的。本領域技術人員在不偏離本發明的情況下現在可以想到眾多的變化、改變和替換。應當理解,在本發明的實踐中可以使用在此描述的本發明實施方式的很多替代方式。以下權利要求用於限定本發明的範圍,由此覆蓋了這些權利要求的範圍內的方法和結構及其等價物。
權利要求
1.一種多重測序方法,包括在單一反應室中對多個靶多核苷酸進行測序,其中所述靶多核苷酸來自兩個或多個不同樣品;以及基於所述靶多核苷酸序列中含有的單一條碼,以至少95%的準確度對每個所述測序的靶多核苷酸所源自的樣品進行鑑定。
2.權利要求1的方法,其中所述祀多核苷酸包含用於校正測序反應的一個或多個序列。
3.權利要求1的方法,其中每個條碼在至少三個核苷酸位點處不同於所有其它條碼。
4.權利要求1的方法,其中所述鑑定在所述條碼中的核苷酸的突變或缺失之後是精確的。
5.一種從多個獨立樣品中產生銜接體標記的靶多核苷酸的方法,該方法包括: a)提供多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列;和 b)將至少一個所述第一銜接體寡核苷酸與每個所述樣品的所述靶多核苷酸連接,從而沒有條碼序列與多於一個所述樣品的所述靶多核苷酸連接。
6.權利要求5的方法,進一步包括(c)將多個第二銜接體寡核苷酸中的至少一個與來自步驟(b)的每個所述樣品的所述靶多核苷酸連接,從而至少一些所述靶多核苷酸在一端包含所述第一銜接體寡核苷酸,並在另一端包含所述第二銜接體寡核苷酸。
7.權利要求6的方法,進一步包括合併來自步驟(c)的靶多核苷酸。
8.權利要求7的方法,進一步包括對所述合併池中的一個或多個所述多核苷酸進行測序。
9.權利要求8的方法,進一步包括基於其連接的條碼序列鑑定靶多核苷酸所源自的樣品O
10.權利要求5或6的方法,其中一個或多個所述銜接體寡核苷酸包含SEQID NO:1。
11.權利要求5或6的方法,其中一個或多個所述銜接體寡核苷酸包含SEQID NO:2。
12.權利要求5或6的方法,其中一個或多個所述銜接體寡核苷酸包含髮夾結構。
13.權利要求5或6的方法,其中一個或多個所述銜接體寡核苷酸包含寡核苷酸雙鏈體。
14.權利要求1或5的方法,其中所述條碼序列的長度為至少3個核苷酸。
15.權利要求1或7的方法,其中基於所述條碼序列合併所述靶多核苷酸,從而在合併池中所有四種鹼基在沿著每個條碼的一個或多個位點處均勻呈現。
16.權利要求1或5的方法,其中所述祀多核苷酸包含片段化的樣品多核苷酸。
17.權利要求16的方法,其中所述片段化包括對所述樣品多核苷酸進行超聲處理。
18.權利要求16的方法,其中所述片段化包括用一種或多種限制性核酸內切酶處理所述樣品多核苷酸。
19.權利要求16的方法,其中所述片段化包括在適合一種或多種酶產生隨機雙鏈核酸斷裂的條件下用所述一種或多種酶處理所述樣品多核苷酸。
20.權利要求19的方法,其中所述一種或多種酶選自:DNase1、片段化酶及其變體。
21.權利要求16的方法,其中所述片段具有10-10000個核苷酸的平均長度。
22.權利要求16的方法,其中所述片段具有100-2500個核苷酸的平均長度。
23.權利要求16的方法,其中所述片段具有50-500個核苷酸的平均長度。
24.權利要求12或13的方法,進一步包括執行使用所述一個或多個連接的銜接體寡核苷酸作為模板來延伸所述靶多核苷酸的一個或多個3』末端的步驟。
25.權利要求24的方法,進一步包括在所述延伸步驟後使用第一引物和第二引物擴增所述靶多核苷酸,其中所述第一引物含有可以與一個或多個所述第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中所述第二引物含有可以與一個或多個所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。
26.權利要求25的方法,其中一個或多個所述引物含有SEQID NO:1。
27.權利要求2 5的方法,其中一個或多個所述引物含有SEQID NO:2。
28.權利要求6的方法,其中每個所述第二銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。
29.權利要求28的方法,其中所述第一和第二銜接體寡核苷酸對包含不同的條碼序列。
30.權利要求28的方法,其中所述第一和第二銜接體寡核苷酸對包含相同的條碼序列。
31.權利要求1或5的方法,其中所述靶多核苷酸包含基因組DNA。
32.權利要求1或5的方法,其中所述靶多核苷酸包含線粒體DNA、葉綠體DNA、質粒DNA、細菌人工染色體、酵母人工染色體,或其組合。
33.權利要求1或5的方法,其中所述靶多核苷酸包含cDNA。
34.權利要求1或5的方法,其中所述樣品包含由引物延伸反應產生的靶多核苷酸。
35.權利要求8的方法,其中所述測序包括測序引物的延伸,所述測序引物含有可與所述第一銜接體寡核苷酸和/或所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。
36.權利要求35的方法,其中所述測序引物含有SEQID NO:1或SEQ ID NO:2。
37.權利要求1或8的方法,其中所述測序包括校正步驟,其中所述校正基於所述條碼序列中的一個或多個核苷酸位點處的每個核苷酸。
38.權利要求1或5的方法,其中每個所述樣品包含少於500ng的核酸。
39.權利要求1或5的方法,其中所述多個條碼序列包括選自下組的序列:AAA、TTT、CCC 和 GGG。
40.權利要求1或5的方法,其中所述多個條碼序列包括選自下組的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC 和 TCGA。
41.權利要求1或5的方法,其中所述多個條碼序列包括選自下組的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTAA、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。
42.一種為多重測序配置的組合物,其包含:多個靶多核苷酸,每個靶多核苷酸包含選自多個條碼序列的一個或多個條碼序列,其中所述靶多核苷酸來自兩個或多個不同樣品,並且進一步地,其中可在組合測序反應中基於所述靶多核苷酸的序列中所含的單一條碼以至少95%的準確度鑑定每個所述多核苷酸所源自的樣品。
43.權利要求42的組合物,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。
44.一種用於產生銜接體標記的靶多核苷酸的組合物,該組合物包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。
45.權利要求44的組合物,還包含多個第二銜接體寡核苷酸。
46.權利要求42或44的組合物,其中所述靶多核苷酸包含於流動池中。
47.權利要求44或45的組合物,其中一個或多個所述銜接體寡核苷酸包含SEQID NO:1o
48.權利要求44或45的組合物,其中一個或多個所述銜接體寡核苷酸包含SEQID NO:2。
49.權利要求44或45的組合物,其中一個或多個所述銜接體寡核苷酸包含髮夾結構。
50.權利要求44或45的組合物,其中一個或多個所述銜接體寡核苷酸包含寡核苷酸雙鏈體。
51.權利要求42或44的組合物,其中所述條碼序列的長度為至少3個核苷酸。`
52.權利要求44的組合物,其中所述第一銜接體寡核苷酸以4的倍數分組,從而在沿著每個條碼的每個位點處均勻呈現所有四種鹼基。
53.權利要求45的組合物,其中每個所述第二銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。
54.權利要求53的組合物,其中所述第一和第二銜接體寡核苷酸對包含相同的條碼序列。
55.權利要求53的組合物,其中所述第一和第二銜接體寡核苷酸對包含不同的條碼序列。
56.權利要求49或50的組合物,還包含第一引物和第二引物,其中所述第一引物含有可以與一個或多個所述第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中所述第二引物含有可以與一個或多個所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。
57.權利要求56的組合物,其中所述引物之一包含SEQID N0:1。
58.權利要求56的組合物,其中所述引物之一包含SEQID NO:2。
59.權利要求49或50的組合物,還包含測序引物,所述測序引物含有可與所述第一銜接體寡核苷酸和/或所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。
60.權利要求42或44的組合物,其中所述多個條碼序列包括選自下組的序列:AAA、TTT、CCC 和 GGG。
61.權利要求42或44的組合物,其中所述多個條碼序列包括選自下組的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC 和 TCGA。
62.權利要求42或44的組合物,其中所述多個條碼序列包括選自下組的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTAA、GGAAG、GGCCT、GGGGA、GGTTC、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。
63.一種用於產生銜接體標記的靶多核苷酸的試劑盒,該試劑盒包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列;及其使用說明。
64.權利要求63的試劑盒,還包含多個第二銜接體寡核苷酸。
65.權利要求63或64的試劑盒,其中一個或多個所述銜接體寡核苷酸包含SEQID NO:1
66.權利要求63或64的試劑盒,其中一個或多個所述銜接體寡核苷酸包含SEQID NO:2。
67.權利要求63或64的試 劑盒,其中一個或多個所述銜接體寡核苷酸包含髮夾結構。
68.權利要求63或64的試劑盒,其中一個或多個所述銜接體寡核苷酸包含寡核苷酸雙鏈體。
69.權利要求63的試劑盒,其中所述條碼序列的長度為至少3個核苷酸。
70.權利要求63的試劑盒,其中所述第一銜接體寡核苷酸以4的倍數分組,從而所有四種鹼基沿著每個條碼在每個位點處均勻呈現。
71.權利要求64的試劑盒,其中每個所述第二銜接體寡核苷酸包含多個條碼序列中的至少一個,其中所述多個條碼序列中的每個條碼序列在至少三個核苷酸位點處不同於所述多個條碼序列中的所有其它條碼序列。
72.權利要求71的試劑盒,其中所述第一和第二銜接體寡核苷酸對包含相同的條碼序列。
73.權利要求71的試劑盒,其中所述第一和第二銜接體寡核苷酸對包含不同的條碼序列。
74.權利要求67或68的試劑盒,還包含第一引物和第二引物,其中所述第一引物含有可以與一個或多個所述第一銜接體寡核苷酸的互補序列的至少一部分雜交的序列,並且進一步地,其中所述第二引物含有可以與一個或多個所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。
75.權利要求74的試劑盒,其中所述引物之一包含SEQID N0:1。
76.權利要求74的試劑盒,其中所述引物之一包含SEQID NO:2。
77.權利要求67或68的試劑盒,還包含測序引物,所述測序引物含有可與所述第一銜接體寡核苷酸和/或所述第二銜接體寡核苷酸的互補序列的至少一部分雜交的序列。
78.權利要求77的試劑盒,其中所述測序引物含有SEQID NO:1或SEQ ID NO:2。
79.權利要求63的試劑盒,還包含以下一個或多個:(a)DNA連接酶,(b)DNA依賴的DNA聚合酶,(c) RNA依賴的DNA聚合酶,(d)隨機引物,(e)在3』端包含至少4個胸苷的引物,(f)DNA核酸內切酶,(g)具有3』到5』核酸外切酶活性的DNA依賴的DNA聚合酶,(h)多個引物,每個引物具有多個選定序列之一,(i)DNA激酶,(j)DNA核酸外切酶,(k)磁珠,(I)具有RNase H活性的酶,(m) RNA連接酶,和(η)適合所述試劑盒中包含的一個或多個元件的一種或多種緩衝液。
80.權利要求63的試劑盒,其中所述多個條碼序列包括選自下組的序列:AAA、TTT、CCC和 GGG。
81.權利要求63的試劑盒,其中所述多個條碼序列包括選自下組的序列:AAAA、CTGC、GCTG、TGCT、ACCC、CGTA、GAGT、TTAG、AGGG、CCAT、GTCA、TATC、ATTT、CACG、GGAC 和 TCGA。
82.權利要求63的試劑盒,其中所述多個條碼序列包括選自下組的序列:AAAAA、AACCC、AAGGG、AATTT、ACACG、ACCAT、ACGTA、ACTGC、AGAGT、AGCTG、AGGAC、AGTCA、ATATC、ATCGA、ATGCT、ATTAG、CAACT、CACAG、CAGTC、CATGA、CCAAC、CCCCA、CCGGT、CCTTG、CGATA、CGCGC、CGGCG、CGTAT、CTAGG、CTCTT、CTGAA、CTTCC、GAAGC、GACTA、GAGAT、GATCG、GCATT、GCCGG、GCGCC、GCTA A、GGAAG、GGCCT、GGGGA、GGTTG、GTACA、GTCAC、GTGTG、GTTTT、TAATG、TACGT、TAGCA、TATAC、TCAGA、TCCTC、TCGAG、TCTCT、TGACC、TGCAA、TGGTT、TGTGG、TTAAT、TTCCG、TTGGC 和 TTTTA。
83.—種產生銜接體標記的靶多核苷酸的方法,該方法包括: a)提供多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含含有序列A的5』端和含有序列A』的3』端,並且進一步地,其中A可與A』雜交,A或A』之一包含DNA,且A或A』中的另一個包含RNA和5個`或更多個末端DNA核苷酸;和, b)將至少一個所述第一銜接體寡核苷酸與至少一個所述靶多核苷酸連接。
84.權利要求83的方法,進一步包括使用能夠從RNA-DNA異雙鏈體上裂解RNA的酶來裂解RNA的步驟。
85.權利要求84的方法,進一步包括執行使用所述一個或多個連接的銜接體寡核苷酸作為模板來延伸所述靶多核苷酸的一個或多個3』端的步驟。
86.權利要求83的方法,進一步包括將多個第二銜接體寡核苷酸中的至少一個與來自步驟(b)的每個所述樣品的所述靶多核苷酸連接,從而至少一個所述靶多核苷酸在一端包含所述第一銜接體寡核苷酸,並在另一端包含所述第二銜接體寡核苷酸。
87.權利要求86的方法,其中每個所述第二銜接體寡核苷酸包含含有序列B的5』端和含有序列B』的3』端,並且進一步地,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA和5個或更多個末端DNA核苷酸。
88.權利要求83的方法,其中每個所述第一銜接體寡核苷酸包含條碼序列。
89.一種用於產生銜接體標記的靶多核苷酸的組合物,該組合物包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含含有序列A的5』端和含有序列A』的3』端,並且進一步地,其中A可與A』雜交,A或A』之一包含DNA,且A或A』中的另一個包含RNA和5個或更多個末端DNA核苷酸。
90.權利要求89的組合物,還包括多個第二銜接體寡核苷酸,其中每個所述第二銜接體寡核苷酸包含含有序列B的5』端和含有序列B』的3』端,並且進一步地,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA和5個或更多個末端DNA核苷酸。
91.一種用於產生銜接體標記的靶多核苷酸的試劑盒,該試劑盒包含多個第一銜接體寡核苷酸,其中每個所述第一銜接體寡核苷酸包含含有序列A的5』端和含有序列A』的3』端,並且進一步地,其中A可與A』雜交,A或A』之一包含DNA,且A或A』中的另一個包含RNA和5個或更多個末端DNA核苷酸。
92.權利要求91 的試劑盒,還包含多個第二銜接體寡核苷酸,其中每個所述第二銜接體寡核苷酸包含含有序列B的5』端和含有序列B』的3』端,並且進一步地,其中B可與B』雜交,B或B』之一包含DNA,且B或B』中的另一個包含RNA和5個或更多個末端DNA核苷酸。
全文摘要
銜接體與靶多核苷酸連接以產生銜接體標記的多核苷酸。同時對銜接體標記的多核苷酸進行測序,並且基於條碼序列對樣品來源進行鑑定。
文檔編號G01N33/48GK103119439SQ201180038529
公開日2013年5月22日 申請日期2011年6月8日 優先權日2010年6月8日
發明者克裡斯多佛·萊蒙德, 努裡斯·庫恩, 吉爾·馬格努斯 申請人:紐亙技術公司