從目標測序面板中尋找變異的方法
2023-05-02 03:26:21 4
從目標測序面板中尋找變異的方法
【專利摘要】本文提供了在富集樣本中識別序列變異的方法。在某些實施例中,這種方法可以包含:(a)獲取:(i)來自對於基因組區已經富集的樣本的多個序列讀數以及(ii)基因組區的參考序列;(b)組裝序列讀數以便獲取與潛在變異相對應的多個離散序列集合;(c)通過檢查構成每個離散序列集合的序列讀數確定哪些潛在變異是真的,哪些是贗生物;(d)可選地確定每種真潛在變異是否包含已知與參考序列相聯繫的突變;以及(e)輸出指示該樣本是否包含序列變異的報告。
【專利說明】從目標測序面板中尋找變異的方法
[0001] 交叉引用
[0002] 本申請要求2013年7月29日提交的美國臨時專利申請第61/859, 625號的利益, 在此通過引用全文併入該申請。
【背景技術】
[0003] 對突變的全面詳述是理解,診斷和治療包括癌症在內的許多疾病所不可缺少的。 人們已經提出了從測序數據中尋找突變的許多方法,這些方法通常由與參考物相比統計評 估變異鹼基的存在組成。但是,在只在小部分讀數中尋找突變的狀況下精確確定突變仍然 是一種挑戰。描繪這樣的突變是重要的,尤其在癌症中。這樣的突變不僅對於腫瘤含量低 的樣本是重要的,而且對於捕獲微小腫瘤子克隆以便理解腫瘤異質性,因此復發和抗治療 性的根本原因也是重要的。
[0004] 因此,由於可能的高均勻性和讀取深度,研究這樣樣本的富集技術是吸引人的。然 而,儘管該實驗技術精確地捕獲信息,但現有分析方法不適合檢測低頻變異。
[0005] 存在可以調用序列變異、開源和商用兩者的許多其它工具。將這樣的工具用於目 標富集(enrichment)數據的嘗試往往會變得繁瑣,不使用導致錯誤調用或假肯定以及丟 失調用的所有數據特性。更進一步,如文獻所述,每種方法不僅存在其自身的缺點,而且該 調用在不同方法之間也不一致。當供應匹配的正常樣本時,一些方法只嘗試檢測低頻突變, 而其它方法只調用SNP (單核苷酸多態性),不調用插入、缺失或多核苷酸多態性(MNP)。
[0006] 在高讀取深度上的目標測序中,在低頻變異的情況下,這些問題更加嚴重。大多數 方法通過查找各個變異地點和評估那個位置上的突變的統計顯著性來工作。例如,如果單 個基因座具有1000讀取深度,則平均而言,預計要用500個讀數覆蓋雜合子調用,以便支持 突變位基因。但是,有一些地方真正存在雜合子但被採樣的次數極少。在馬賽克狀樣本的 情況下,作為微量成分的特性的突變具有低得多的頻率。在統計上,雖然採樣這樣的大樣本 空間,但會發生罕見事件,以及難以將低頻調用與測序誤差區分開。擴增和捕獲的其它贗生 物(artifact)的存在使問題進一步錯綜複雜。在在基因組區中存在複雜事件和插缺(通 入-羞失)的情況下,參考序列不能準確地代表變異分布,這導致進一步的贗生物。許多現 有解決方案試圖通過使用多種獨立方法來解決這些問題,但在當前文獻當中,還沒有可以 可靠地調用這些變異的解決方案。
【發明內容】
[0007] 本文提供的是在富集樣本中識別序列變異的方法。在某些實施例中,這種方法可 以包含:(a)獲取:(i)來自對於基因組區已經富集的樣本的多個序列讀數以及(ii)基因 組區的參考序列;(b)組裝序列讀數以便獲取與潛在變異相對應的多個離散序列集合;(c) 通過檢查構成每個離散序列集合的序列讀數確定哪些潛在變異是真的,哪些是贗生物;(d) 可選地確定每種真潛在變異是否包含已知與參考序列相聯繫的突變;以及(e)輸出指示該 樣本是否包含序列變異的報告。
[0008] 此外還提供了包含存儲器的計算機系統,包含:a)序列的資料庫;以及b)執行本 方法的可執行程序。
[0009] 此外還提供了包含執行本方法的指令的計算機可讀存儲介質。
[0010] 此外還提供了識別變異序列的方法。在某些實施例中,該方法可以包含:a)將序 列信息輸入包含程序的計算機系統中,該程序包含執行本方法的指令;b)執行該程序;以 及c)接收來自該計算機系統的輸出。
[0011] 本文闡述本教導的這些和其它特徵。
【專利附圖】
【附圖說明】
[0012] 本領域的普通技術人員應當明白,下面所述的附圖只是為了例示的目的。這些附 圖無意以任何方式限制本教導的範圍。
[0013] 圖1是例示本方法的一個實施例的流程圖;以及
[0014] 圖2是例示本方法的另一個實施例的流程圖。
[0015] 定義
[0016] 除非另有定義,本文使用的所有科學和技術術語具有與本公開所屬的領域的普通 技術人員通常所理解相同的含義。儘管與本文所述的那些類似或等效的任何方法和材料也 可以用在本教導的實踐或測試中,但現在描述一些示範性方法和材料。
[0017] 如本文所使用的術語"擴增"指的是將目標核酸用作模板,生成目標核酸的一個或 多個副本。
[0018] 如本文所使用,術語"單核苷酸多態性"或縮寫"SNP"指的是在一個群體中以可觀 頻率(例如,至少1%)存在兩個或更多個可替代等位基因的基因組序列中的單核苷酸位 置。
[0019] 就基因組而言,術語"富集"指的是將基因組的一個或多個區域與基因組的其 餘區域分開,以便得出與基因組的其餘區域隔離的產物。可以使用包括描述在,例如,如 下文獻中的那些的多種方法進行富集:Hedges et al (Comparison of three targeted enrichment strategies on the SOLiD sequencing platform. PLoS One 20116:el8595) 和 Shearer et al(Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol. 201212:20)。
[0020] 術語"富集樣本"指的是包含與基因組的其餘區域隔離的基因組DNA的片段的樣 本。富集片段可以具有取決於使用的分段方法的任何長度。在某些實施例中,該片段可以 在長度100bp到lkb,例如,長度200bp到500bp的範圍內,但也可以使用在這個範圍之外的 片段。取決於如何進行分段和/或富集,對於任何一個富集區域,片段分子的末端可以相同 或不同。
[0021] 術語"基因組區"如本文所使用,指的是基因組,例如,像人、猴子、大鼠、魚或昆蟲 或植物那樣的動物或植物基因組的區域。
[0022] "多個"至少包含2個成員。在某些情況下,多個可以含有至少10個,至少100個, 至少1000個,至少10, 000個,至少100, 000個,至少106個,至少107個,至少108個或至少 1〇9個或更多個成員。
[0023] 術語"測序"如本文所使用,指的是獲取多核苷酸的至少10個連貫核苷酸的身份 (例如,至少20個,至少50個,至少100個或至少200個或更多個連貫核苷酸)的方法。
[0024]術語"下一代測序"指的是啟迪(Illumina)、生命技術(Life Technologies)、和 羅氏(Roche)公司當前採用的所謂並行化邊合成邊測序(sequencing-by-synthesis)或邊 連接邊測序(sequencing-by-ligation)平臺。下一代測序方法也可以包括納米孔測序方 法或像生命技術公司商業化的離子激流技術那樣的基於電子檢測方法。
[0025]術語"序列讀數"指的是測序進程的輸出。序列讀數可能伴隨著有關序列的質量 的度量。例如,序列讀數中的每個核苷酸可以與那個核苷酸的鹼基調用,即,核苷酸是G,A, T還是C的確定的置信度相聯繫。
[0026]術語"序列變異"指的是至少在一個位置上與參考序列不同的核酸序列。序列變 異的例子包括包含SNP和體細胞突變的序列。
[0027]術語"低頻序列變異"、"少數物種"和"少數變異"指的是相對於序列的非變異形 式只以小於10% (例如,小於5%或小於1%)的頻率存在於樣本中的變異序列。在許多 情況下,低頻序列變異可以通過基因中的核酸替代或插缺來表示。低頻序列變異可以由,例 如,體細胞突變生成。
[0028]術語"參考序列"指的是可以與候選序列比較的已知序列,例如,來自公共或內部 資料庫的序列。
[0029]如本文所使用,術語"組裝"指的是涉及如下的多步過程:對準代表較長核酸的分 段的序列。在某些情況下,組裝可能涉及合併序列,以便構建節段的序列。
[0030]如本文所使用,術語"錨"指的是存在於可以用於對準那些序列的較長序列中的序 列。在某些情況下,錨可以足以使較長序列正確對準。
[0031]如本文所使用,術語"序列重疊群"指的是通過組裝重疊序列產生的核苷酸的相連 序列。
[0032]如本文所使用,術語"與癌症相聯繫"指的是包含與癌症表型相關聯的突變的基因 組區,例如,基因。在一些情況下,認為突變在癌症中起成因作用。
【具體實施方式】
[0033] 在描述各種實施例之前,要明白的是,本公開的教導不局限於所述的具體實施例, 這樣,當然可以改變。還要明白的是,本文所使用的術語只是為了描述具體實施例的目的, 而無意限制本公開,因為本教導的範圍只由所附權利要求書限定。
[0034]本文使用的段落標題只是為了組織目的,而不要理解為以某種方式限制所述的主 題。雖然本教導結合各種實施例來描述,但並不是打算使本教導局限於這樣的實施例。相 反,如本領域的普通技術人員所懂得,本教導包含各種替代例、修改例、和等效例。
[0035] 在提供數值的範圍的情況下,不言而喻,在本公開中包含在那個範圍的上下限之 間、除非上下文另有明確指示,精確到該下限的單位的十分之一的每個中間值和那個所述 範圍中的任何其它所述或中間值。
[0036] 對任何公告的引用是為了其在提交日之前的公開,不應該理解為承認本權利要求 書無權通過在先發明提前這樣公開的日期。進一步,提供的公告的日期可以不同於可能需 要獨立確認的實際公告日期。
[0037]必須注意到,如本文所使用以及在所附權利要求書中,單個形式"一個"、"一種"和 "該"包括複數指代物,除非上下文另有明確指示。還要注意到,可以將權利要求書撰寫成排 除任何可選元素。這樣,這種陳述旨在用作先行基礎,以便結合要求保護元素的闡述使用像 "僅僅"、"只有"等那樣的排它術語,或使用"否定"限制。
[0038] 如本領域的普通技術人員所明顯看出,一旦閱讀了本公開,本文所述和所例示的 每個單獨實施例可以具有可以不偏離本教導的範圍或精神地容易與任何其它幾個實施例 的特徵分開或組合的分立成分和特徵。任何所述的方法都可以按所述事件的次序或按邏輯 上可能的任何其它次序來執行。
[0039] 本領域的普通技術人員要懂得,本發明在其應用中不局限於在本文的描述或附圖 中闡述的結構的細節、組件的排列、類別選擇、加權、預定信號極限、或步驟。本發明能夠擁 有其它實施例以及能夠以許多不同方式加以實踐或實施。
[0040] 如上所述,本方法可以對已經從對於特定基因組區已經富集了的樣本,即,包含與 特定基因組區相對應的基因組DNA的片段的樣本中獲得的序列讀數執行,其中該片段是從 分段總基因組DNA富集的。在一些情況下,富集基因組區可能包含存在與一種或多種癌 症,例如,乳腺癌、黑色素瘤、腎癌、子宮內膜癌、卵巢癌、胰腺癌、白血病、結腸直腸癌、前列 腺癌、間皮瘤、神經膠質瘤、成神經管細胞瘤、紅細胞增多症、淋巴瘤、肉瘤或多發性骨髓瘤 等相聯繫的突變的基因(參見,例如,Chial Proto-oncogenes to oncogenes to cancer. Nature Education20081:l)。感興趣的基因包括,但不限於,PIK3CA、NRAS、KRAS、JAK2、 HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、P⑶FRA、KIT 和 ERBB2。在特定情況下,樣本可 能包含與已經富集的多個不同基因組區(例如,幾個不同區域,例如,至少2個,至少5個, 至少10個,至少50個,至少100個或至少1,000個或更多個不同、非重疊區域)相對應的 基因組DNA的片段,其中每個區域可能對應於一個基因,例如,一個致癌基因。
[0041] 富集基因組區可以使用任方便方法,例如,使用與寡核苷酸雜交探針或使用基於 連接的方法從初始基因組樣本中富集。在一些實施例中,基因組區可以通過在溶液中與長 度可以從20到200nt,例如,長度100到150nt的一個或多個生物素化寡核苷酸(在某些 情況下,可以是RNA寡核苷酸)雜交來富集,以便捕獲感興趣的區域。在這些實施例中,在 捕獲之後,可以使用,例如,鏈黴親和珠將包含與寡核苷酸雜交的基因組DNA的片段的雙鏈 與其它片段隔離。在其它實施例中,可以使用下面文獻所述的方法富集感興趣的區域:Dahl et al (Multiplex amplification enabled by selective circularization of large sets of genomic DNA fragments. Nucleic Acids Res. 200533:e71)。在這種方法中,可以使用 一種或多種限制性內切酶分段並變性基因組樣本。在這種方法中,將探針庫與目標片段雜 交。每個探針是設計成與目標DAN限制性片段的兩端雜交,從而引導目標片段形成環形DNA 分子的寡核苷酸。該探針還包含在環化期間併入的方法特有測序基序。在一些情況下,將 該探針生物素化,並且可以使用鏈黴親和珠檢測目標片段。然後通過連接,即,保證只環化 完全雜交片段的非常精確反應閉合環形分子。接著,擴增環形DNA目標。其它富集方法可 能描述在,例如,如下文獻中:Hedges et al (Comparison of three targeted enrichment strategies on the SOLiD sequencing platform. PLoS 0ne20116:el8595)和 Shearer et al(Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol.201212:20)。
[0042] 可以將基因組DNA與任何生物體隔離。該生物體可以是原核生物或真核生物。 在某些情況下,該生物體可以是植物,例如,擬南芥或玉米,或動物,包括爬行動物、哺乳 動物、鳥類、魚類、兩棲類。在一些情況下,可以將初始基因組樣本與人類或像小鼠或大 鼠那樣的齧齒動物隔離。在示範性實施例中,初始基因組樣本可以包含來自像從人類、 小鼠,大鼠或猴細胞的哺乳動物細胞的基因組DNA。為分析製備基因組DNA的方法像如 下文獻所述的那些那樣,在現有技術中是常規的和已知的:Ausubel,F.M.et al.,(Short protocols in molecular biology, 3rd ed. , 1995, John ffiley&Sons, Inc. , New York) 和 Sambrook, J. et al. (Molecular cloning:A laboratory manual, 2nd ed. , 1989, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York)。初始基因組樣 本可以包含基因組DNA或其擴增形式(例如,通過使用,例如,如下文獻的方法的全基 因組擴增方法擴增的基因組 DNA:Lage et al (Genome Res. 200313:294-307)、Zong et al (Science. 2012338:1622-1626)、或已公布專利申請 US20040241658)。片段可以使用 物理方法(例如,超聲波、噴霧、或剪切),化學地,酶促地(例如,使用罕見-切割限制 性內切酶)或使用轉座因子分段基因組來製作(參見,例如,Caruccio Methods Mol. Biol. 2011733:241-55 ;Kaper et al, Proc. Natl. Acad. Sci. 2013110:5552-7 ;Marine et al,Appl. Environ. Microbiol. 201177:8071-9 和 US20100120098)。
[0043] 樣本可以從培養的細胞或臨床樣本的細胞,例如,組織活檢、刮除或灌洗或法醫樣 本的細胞(即,在犯罪現場收集的樣本的細胞)中製作。在具體實施例中,核酸樣本可從像 細胞、組織、體液、和糞便那樣的生物樣本中獲得。感興趣的體液包括,但不限於,血液、血 清、血漿、唾液、粘液、粘痰、腦脊髓液、胸膜液、淚液、乳白管液、淋巴液、痰、腦脊液、滑膜液、 尿液、羊水、和精液。在具體實施例中,樣本可以從受試者,例如,人身上獲得,並且可以在用 在本方法中之前加以處理。例如,可以在使用已知的方法之前從樣本中提取核酸。在具體 實施例中,基因組樣本可以來自福馬林固定石蠟包埋(FFPE)樣本。
[0044] 取決於實現哪種方法,初始樣本(即,在富集之前)可以包含已經銜接子連接的基 因組DNA的片段。在其它實施例中,可以在它們已被富集之後將片段與銜接子連接。
[0045] 在一些情況下,可以匯集樣本。在這些實施例中,片段可以含有指示它們來源的分 子條形碼。在一些實施例中,正被分析的DNA可以源自單個源(例如,單個生物體、病毒、組 織、細胞、受試者等),而在其它實施例中,核酸樣本可以是從多個源提取的核酸池(例如, 來自多個生物體、組織、細胞、受試者等的核酸池),其中"多個"的意思是兩個或更多個。這 樣,在某些實施例中,樣本可以包含來自2個或更多個源,3個或更多個源,5個或更多個源, 10個或更多個源,50個或更多個源,100個或更多個源,500個或更多個源,1000個或更多個 源,5000個或更多個源,至少和包括大約10, 000個或更多個源的核酸。分子條形碼可以允 許來自不同源的序列在它們被分析之後得到區分。
[0046] 在獲得富集樣本之後,對其加以擴增和測序。在某些實施例中,使用與用在, 例如,啟迪公司的可逆終止子方法、羅氏公司的焦磷酸測序方法(454)、生命技術公司 的邊連接邊測序(SOLiD平臺)、或生命技術公司的離子激流平臺中兼容的引物擴增片 段。這樣的方法的例子描述在如下文獻中:Margulies et al(Nature2005437:376 - 80); Ronaghi et al (Analytical Biochemistry 1996242:84 - 9) ; Shendure et al (Science2005309:1728-32) ;Imelfort et al(Brief Bioinform. 200910:609-18) ;Fox et al (Methods Mol Biol. 2009 ;553:79-108) ;Appleby et al(Methods Mol Biol. 2009 ; 513:19-39)和Morozova et al (Genomics. 200892:255-64),這些文獻通過引用併入用於方 法以及方法的具體步驟,包括每個步驟的所有起始產物、試劑、和最終產物的一般性描述。
[0047] 在一個實施例中,可以使用納米孔測序來測序隔離產物(例如,如文獻Soni et al.2007Clin.Chem. 53:1996-2001 所述,或如牛津納米孔技術公司(Oxford Nanopore Technologies)所述)。納米孔測序是隨著通過納米孔直接測序DAN的單個分子的單分子 測序技術。納米孔是直徑為1納米的數量級的小孔。將納米孔浸在導管中並在其兩端施加 電位(電壓)導致由離子通過納米孔的傳導引起的微小電流。流過的電流的數量對納米孔 的尺寸和形狀敏感。隨著DNA分子通過納米孔,DNA分子上的每個核苷酸不同程度地阻擋納 米孔,以不同程度改變通過納米孔的電流的幅度。因此,這種電流隨著DAN分子通過納米孔 的改變代表DAN序列的讀取。納米孔測序技術公開在如下文獻中:美國專利第5, 795, 782、 6, 015, 714、6, 627, 067、7, 238, 485 和 7, 258, 838 號、和美國專利申請第 2006003171 和 20090029477 號。
[0048] 在一些實施例中,對於每個富集區域,該測序可以得出至少100個,至少1,000個, 至少10, 000個或直到100, 000個或更個多序列讀數。序列讀數的長度可能隨,例如,使用 的平臺變化很大。在一些實施例中,序列讀數的長度可以在30到800個鹼基的區域中,並 且在一些情況下,可以包括配對末端讀數。
[0049] 可以使用多種不同方法組裝序列讀數來獲取每一個與潛在變異相對應的多個離 散序列集合。序列讀數可以使用任何適當方法來組裝,該方法的基本步驟描述在像如下那 樣的多種出版物中:Myers et al(Science2000287:2196 - 204)、Batzoglou et al (Genome Research200212:177 - 89)、Dohm et al (Genome Research200717:1697 - 706)和Boisvert et al (Journal of Computational Biology201017:1519 - 33),通過引用全部併入這些文 獻以便公開那些方法。在一些實施例中,對於每個富集區域,可以組合序列讀數以便得出加 以檢查以識別在特定位置上存在核苷酸變異(例如,替代、插入或缺失)的單個堆積物。然 後可以將在特定核苷酸位置上存在核苷酸變異的序列讀數重新組裝成離散序列集合。在其 它實施例中,可以高度嚴格地,即,以存在相同變化的序列讀數使序列相互聚集的方式組裝 序列。在另外的其它實施例中,可以將每個讀數與像參考基因組那樣的參考序列對準地組 裝序列讀數。在某些情況下,將從序列讀數中獲得的至少一個組裝序列與參考序列對準。
[0050] 在一些情況下以及如下面更詳細所述,將圖論用於組裝讀數。在特定情況下,組 裝序列讀數可以包含製作像德布魯(de Bruijn)圖那樣的有向圖。例如,構建序列讀數的 德布魯圖可能涉及:從目標區域中,在讀數中包括長度k的子序列的測序讀數中收集重疊 k_聚體;將每個k-聚體分解成兩個重疊(k-1)-聚體;以及將圖像的頂點或節點指定給每 個(k-l)_聚體和將連接圖形中的兩個節點的邊指定給k-聚體。因此,每個序列在圖形中 被表示成通過k-聚體的路徑,潛在序列重疊群在圖形中可以通過連接通過k-聚體的多條 路徑來表示。將德布魯圖用於組裝讀數描述在如下文獻中:美國專利8, 209, 130 ;以及美國 公開2011/0004413、美國公開2011/0015863和美國公開2010/0063742,在此通過引用併入 這些文獻。
[0051] 在某些情況下,有向圖可以是有向加權圖。在某些方面,有向加權圖使用相同長度 的k-聚體形成。在某些實施例中,在特定節點或連接節點的邊上不使用作為讀數覆蓋範圍 的函數的截斷值地作出將哪個邊選來構建節點上的潛在序列的選擇。
[0052] 潛在序列通過歐拉(Euler)路徑表示在有向加權圖中。因此,組裝序列讀數可 能進一步涉及尋找通過由序列讀數構成的有向加權圖的歐拉路徑。尋找通過有向加權圖 的歐拉路徑可能包含在帶有禁止字符串的語言中尋找最小德布魯序列(例如,具有尺寸k 的的給定字母A的循環序列,A中長度n的每個可能子序列恰好一次地表現為連貫字符的 序列)。有關內容參見,例如,Moreno et al.,Graph-Theoretic Concepts in Computer Science20043353:168。在這樣的情況下,最小德布魯序列可以使用BEST((de Bruijn、 Ehrenfest、Smith和Tutte)定理(提供有向(定向)圖中的歐拉(Eulerian)迴路的數量 的乘積公式,以及在給定頂點上將歐拉迴路的數量與有根跨越樹的數量相聯繫),通過跨越 子圖,或有向加權圖的樹來定義。確定有向圖的跨越樹可以通過任何方便方法來實現(參 見,例如,Tarjan et al.Proc F0CS198412-20)。利用禁止字將有向加權圖表示成德布魯序 列得出可能在圖形中的單詞的最大數量的估計值,並且反映有向圖的信息熵。這種熵邊界 也是有向圖的轉換矩陣的本徵值的極限。由於信息熵的邊界通過由序列讀數構成的有向圖 確定,所以將丟棄給定測序讀數的集合,不能不超過信息熵邊界地從參考物或另一種潛在 變異中導出的任何潛在變異序列(即,如果潛在變異與另一種變異或參考物之間的轉換矩 陣的本徵值超過上面建立的邊界)。
[0053] 在某些情況下,可以將序列讀數錨定在參考序列上,下面將對此作更詳細討論。在 一些實施例中,序列組裝方法涉及在每個序列讀數中,劃界認為測序可靠的區域,每個集合 可以使用參考序列,以及參考序列本地的序列來錨定。
[0054] 在這種方法中,序列組裝步驟導致多個離散集合,每個集合對應於一種潛在變異。 每種潛在變異通過在序列讀數中找到的序列變化來定義。這樣,離散集合中的所有候選序 列存在相同變化。任何一個富集區域可以通過至少2個,至少5個,至少10個,至少15個, 至少20個,至少30個,至少50個,至少100個或更多個離散集合來表示。每個集合中序列 讀數的數量可能相差很大。在幾種情況下,可以將大多數序列讀數組裝成代表樣本中的顯 性變異的一個或多個集合(對於富集區域中的種系差異,例如,SNP,取決於最初獲得基因 組DNA的原始樣品是純合的還是雜合的)。其餘集合可能對應於低頻變異序列(例如,從體 細胞突變的細胞中獲得的序列),可能源於PCR誤差,和/或可能包含錯誤調用鹼基。在某 些情況下,這些集合可以通過包含變化的較少序列讀數(例如,取決於獲得的序列讀數的 總數,10到1,〇〇〇或更多個)來表示。
[0055] 在該方法的下一個步驟中,篩選離散集合以確定哪些潛在變異是"真"的(即,正 確提供樣本中的分子的序列,而不是測序反應或數據處理中的錯誤,例如,鹼基錯誤調用的 結果),以及哪些候選分子是贗生物(即,是測序反應或數據處理中的錯誤,例如,鹼基錯誤 調用的結果,而不是樣本中的分子的實際序列)。這個步驟可以通過檢查構成每個離散序列 集合的序列讀數來完成。在一些實施例中,這個步驟可以通過檢查包括讀數質量、鹼基調用 的置信度、和對準的置信度(即,是否將序列映射到正確地點)的多種參數來完成。可以分 解弱定義的候選分子(例如,通過差序列讀數定義的候選分子、通過低置信度鹼基調用表 示序列變異的候選分子等),以及可以將該序列與其它隊列合併。在某些實施例中,給定序 列讀數的集合,使用隱式馬爾可夫(Hidden Markov)模型指定每種潛在變異的似然度。在 一些實施例中,這個步驟可以包含檢查序列的質量、讀數的數量、鹼基調用的質量和它們與 參考序列的匹配,以便為每種潛在變異提供得分。
[0056] -旦識別出真正潛在變異,就可以可選地將通過潛在變異定義的突變與參考序列 的已知突變相比較,其中該參考序列是來自公共或內部資料庫的序列。在某些實施例中, 該比較涉及確定每種真正潛在變異是否包含已知與參考序列相聯繫的突變。例如,可以 在桑格(Sanger)中心的COSMIC資料庫中尋找幾百種基因中的幾千種與癌症有關突變的 身份(也參見 Jung et al Systematic investigation of cancer-associated somatic point mutations in SNP databases Nature Biotechnology201331:787 - 789)。例如, 如果富集序列包括來自KRAS基因的序列,則可以分析真正突變來確定它們的某一個是否 含有如下突變的某一種 :35G>A、35G>T、38G>A、34G>T、35G>C、34G>A、34G>C、37G>T、183A>C、 37G>A、182A>T、183A>T、436G>A、37G>C、182A>G、34_35GG>TT、38G>C、181C>A、38_39GC>AT 或 38G>T。這些突變可以高頻率地在白血病、結腸直腸癌(Burmer et al.Proc.Natl.Acad. Sci. 198986:2403 - 7)、胰腺癌(Almoguera et al.Celll98853:549 - 54)和肺癌(Tam et al. Clin. Cancer Res. 200612:1647 - 53)中找到。同樣,如果富集序列包括來自NRAS基因 的序列,則可以分析真正候選分子來確定它們的某一個在NRAS中是否含有如下突變的某 一種:182A>G、181C>A、35G>A、182A>T、38G>A、34G>A、37G>C* 1849G>T。
[0057] 在某些實施例中,該方法可以涉及為一對或多對基因組區富集,其中每對基因組 區由感興趣的基因組區(例如,與癌症相聯繫的基因)和與感興趣的基因組區相鄰(以及 在一些情況下,重疊)的區域組成。在這些實施例中,可以分開富集和在擴增之前組合該 對。可以一起分析每對的序列讀數。第二基因組區的讀數使人們可以在較長長度上求統計 平均,得出更好的結果。在一些情況下,相鄰區域的序列讀數可以用於,例如,調整結果以便 接納任何採樣偏差。
[0058] 該方法可以包含輸出指示樣本是否包含特定序列變異的報告。該報告可以包含樣 本是否包含突變的指示,以及有關參考序列和突變的可用公開信息。在一些情況下,該報告 可以指示在樣本中存在突變的置信度。
[0059] 上述方法可以應用於表徵,分類,分化,分級,分期,診斷或預診病情,或預測對治 療的反應。在特定情況下,該方法可以用於研究患癌症狀或其它乳動物疾病,包括,但不限 於,白血病、腺癌、前列腺癌、阿爾茨海默氏病、帕金森氏病、癲癇、肌萎縮性側索硬化、多發 性硬化、中風、孤獨症、精神發育遲緩、和發育障礙。許多核苷酸多態性都與這些病症相聯 系,並且被認為是產生這些病症的因素。知道核苷酸多態性的類型和地點可以大大有助於 對各種哺乳動物疾病的診斷、預診和理解。另外,本文所述的測定條件可以用在其它核酸檢 測應用中,例如,對於傳染性疾病的檢測,包括病毒載量監測、病毒基因分型、環境檢測、食 品檢測、取證、流行病學、和正在使用特定核酸序列檢測的其它領域。
[0060] 在一些實施例中,可以從患者身上獲取生物樣本,例如,活體組織切片,並且可以 使用該方法分析該樣本。在具體實施例中,該方法可以應用於識別和/或估計處在生物樣 本中的基因座的突變副本的數量,該生物樣本包含基因座的野生型副本、和相對於基因座 的野生型副本具有點突變的基因座的突變副本兩者。在本例中,該樣本可以包含比基因座 的突變副本多至少100倍(例如,至少1,〇〇〇倍,至少5, 000倍,至少10, 000倍,至少50, 000 倍,或至少100, 〇〇〇倍的基因座的野生型副本。
[0061] 在這些實施例中,該方法可以應用於檢測,例如,PIK3CA、NRAS、KRAS、JAK2、HRAS、 FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、P⑶FRA、KIT 和 ERBB2 中的致癌基因突變(可以是體 細胞突變),該突變可能與乳腺癌、黑色素瘤、腎癌、子宮內膜癌、卵巢癌、胰腺癌、白血病、結 腸直腸癌、前列腺癌、間皮瘤、神經膠質瘤、成神經管細胞瘤、紅細胞增多症、淋巴瘤、肉瘤或 多發性骨髓瘤等相聯繫(參見,例如,Chial Proto-oncogenes to oncogenes to cancer. Nature Education20081:1)。
[0062]因為基因座中的點突變可能與癌症存在直接聯繫,所以本主題的方法可以單獨 地,或與其它臨床技術(例如,像結腸鏡檢查或乳腺X光照片那樣的身體檢查)或分子技術 (例如,免疫組織化學分析)結合應用於診斷患有癌症或存在癌前病情(例如,腺瘤)的患 者。例如,可以將從被檢體測定法中獲得的結果與其它信息,例如,有關其它座位的甲基化 狀態的信息、有關相同基因座中或不同基因座上的重排或替代的信息、細胞遺傳學信息、有 關重排的信息、基因表達信息或有關端粒的長度的信息結合,以提供癌症或其它疾病的全 面診斷。
[0063] 在一個實施例中,可以在第一地點上,例如,像在醫院中或在醫生的辦公室那樣, 在臨床環境中從患者身上收集樣本,然後可以將樣本轉送給第二地點,例如,對其加以處理 以及執行上述方法以生成報告的實驗室。如本文所述的"報告"是包括提供測試結果的報 告元素的電子或有形文件,該測試結果可以包括指示在樣本中存在基因座的突變副本的ct 值、Cp值等。一旦生成,就可以將該報告轉送到作為臨床診斷的一部分,健康專家(例如, 臨床醫生、實驗室技術人員、或像腫瘤學家、外科醫生、病理學家那樣的醫生)可以對其加 以解釋的另一個地點(可以是與第一地點相同的地點)。
[0064] 在圖1和2的流程圖中描述了該方法的一種實現。第一流程描述了該方法的總體 設置,例如,總體工作流程。第二流程描述了該方法本身的流程。接著詳述該方法的每個組 成部分。下面所述的方法是步驟B3的實現,也與步驟B4和步驟C的第6和7部分有關。在 一種實現中,該方法涉及B3,S卩,單核苷酸多態性和插入缺失兩者的變異的識別。在圖2中 詳細描述了本發明的流程。
[0065]在步驟1中,收集設計信息,並將其用於注釋感興趣的區域。該設計信息按如下方 式使用:劃界感興趣區域,並在感興趣區域內指定放置誘餌的子區。獲取和標記測序可靠的 區域。可選地,可以將區域填補成在感興趣區域的兩端包括指定數量的鹼基,以便評估讀數 的偏離目標匹配,以及為隨後步驟指出參考錨點。獲取典型的參考序列作為模板。如果想要 包括有關給定區域中的變異的任何以前已知信息,則在指定區域內也標記這樣的變異。為 了有效使用計算資源,使用Java7F 〇rk-Join框架並行地(在隨後步驟中)構建和分析每個 非重疊區域。在這個步驟中,"區域"只是一個基因組模板,以及如有需要和在需要時按需 裝載數據。在第二步驟中,嘗試尋找可以在這樣的區域中可靠構建的分子序列的所有相關 可替代伸展物。從供應的參考序列中讀取第一候選參考序列。該方法假設存在至少一種與 參考物完全相同的可用分子表示。如果存在不止一種這樣的可用表示,則接著構建和評估 所有表示。然後,構建所有可替代表示。這是通過在目標區域中局部重新組裝讀數完成的。 對於這種重新組裝,我們使用來自導致候選分子序列得到優化和快速確定的符號序列的許 多結果。首先,出自重疊k-聚體地構建有向加權圖。任何候選分子在這個圖形中都必須表 示成歐拉路徑(即,訪問每個邊,或換句話說,完成邊遍歷)。假設"遺漏"或"非測序"區域 與參考物相同,以及在可用時利用配對末端運行的兩個配對物。在只可靠地映射一對的情 況下,該方法查找所有未映射讀數,並試圖利用k-聚體構建候選表示,以便隱性地進行局 部重新對準。
[0066] 為了有效地做到這一點,使用理論結果。當識別到尋找候選解決方案的問題相當 於在帶有禁止字符串的語言中尋找最小德布魯序列時,我們注意到存在將特定長度的"單 詞"的數量與信息熵的估計量相聯繫的邊界。這個熵邊界也是規定不同k_聚體之間的轉換 的轉移矩陣的最大本徵值的邊界(即,該最大本徵值是該信息的自然對數)。因此,在構建 代表各種候選者的圖形的同時,可以考慮給定長度的允許單詞的數量的計數。在一些情況 下,可以考慮與可能單詞的總數一起向我們提供所希望信息的禁止單詞(不出現的單詞) 的數量的讀數。在構建圖形本身的同時可以容易地尋找禁止單詞。最大本徵值的邊界可以 用於加速下一步驟中對似然度的計算。
[0067] 使用的第二結果依賴於BEST定理或de Brui jn、Ehrenfest、Smith和Tutte定 理。這個定理將可能歐拉路徑與圖形中的跨越樹的數量相聯繫。由於我們的目的是構建歐 拉路徑,所以該定理將該問題轉換成尋找跨越樹的問題一可快速獲得解的眾所周知問題。 Vishkin公式化可以用於尋找跨越樹。
[0068] 由於圖形可以是非平衡的,所以上面的結果儘管大大地加快了計算,但可能遺漏 一些路徑。尤其在存在許多相乘匹配讀數或存在結構和複製數變化的狀況下。為了防止這 樣的極端情況,我們計數傳入和傳出權重顯著不同於平均值的路徑。如果找到這樣的路徑, 則我們在表示在這樣的路徑中的k_聚體的子集上窮盡地搜索歐拉路徑。
[0069] 在找到候選分子表示之後,使用馬爾可夫模型對每一種指定似然度。在此我們查 找讀數(配對),並評估最有可能將數據賦予哪個候選分子。首先根據映射質量,通過指定 過濾準則過濾用於這種評估的讀數。將候選者之間的轉換表示成轉移矩陣,並根據區域中 的讀取數據優化該轉換。在這樣做的同時,我們使用上面的本徵值邊界迅速終止導致與該 邊界不一致的解的任何迭代。除了這種加速之外,還通過標準維特比(Viterbi)迭代確定 排放和轉換概率。可以檢查指定數量的最佳得分候選者。
[0070] 在這個步驟之後,可以檢查存在於候選解之中的各種等位基因,以便作出變異調 用。過濾掉發現與讀數的末端太接近(通過參數定義的"接近")地受到鹼基支持的等位基 因。此外,如果變異候選者在擴增子片段的末端上,以及只有一個擴增子覆蓋基因座,則過 濾掉它。在不止一個擴增子支持基因座的情況下,只有當受到不止一個擴增子支持時才保 留這樣的候選者。
[0071] 對每種變異評分。換句話說,給定讀數的集合{R}和基因型的集合"G",我們想尋 找P({G} | {R})。為了做到這一點,我們使用貝葉斯(Bayes)定理,S卩,獲取P({R} | {G})和 P ({G}),並組合它們以獲取所希望結果:
【權利要求】
1. 一種識別序列變異的方法,包含: (a)獲取;(i)來自對於基因組區已經富集的樣本的多個序列讀數W及(ii)基因組區 的參考序列; 化)組裝序列讀數W便獲取多個離散序列集合,其每個與潛在變異相對應; (C)通過檢查構成每個離散序列集合的序列讀數確定哪些潛在變異是真的,哪些是歷 生物; (d) 可選地確定每種真潛在變異是否包含已知與參考序列相聯繫的突變;W及 (e) 輸出指示所述樣本是否包含序列變異的報告。
2. 如權利要求1所述的方法,其中該基因組區與癌症相聯繫。
3. 如權利要求1所述的方法,其中該基因組區包含如下基因的至少一種的至少一部 分:PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT 和 邸 BB2。
4. 如權利要求1所述的方法,其中該序列變異是與體細胞突變相對應的低頻序列變 異。
5. 如權利要求1所述的方法,其中該富集基因組區從由臨床樣本中獲得的總DNA中富 集。
6. 如權利要求1所述的方法,其中該報告提供該樣本是否包含突變的指示W及有關參 考序列的可用公開信息。
7. 如權利要求1所述的方法,其中所述組裝包含劃界其中認為序列可靠的每個序列讀 數中的區域。
8. 如權利要求1所述的方法,其中所述組裝使用圖論。
9. 一種包含存儲器的計算機系統,包含: a) 來自對於基因組區已經富集的樣本的序列讀數的資料庫; b) 基因組區的參考序列;W及 C)執行如權利要求1所述的方法的可執行程序。
10. -種包含執行如權利要求1所述方法的指令的計算機可讀存儲介質。
【文檔編號】G06F19/22GK104346539SQ201410355823
【公開日】2015年2月11日 申請日期:2014年7月24日 優先權日:2013年7月29日
【發明者】A.阿舒特什, D.喬希, C.A.勒科克 申請人:安捷倫科技有限公司