新四季網

用於產生和使用最佳核苷酸流順序的系統和方法

2023-06-12 13:47:31

用於產生和使用最佳核苷酸流順序的系統和方法
【專利摘要】描述了用於產生儘可能降低序列數據中相位同步誤差的累積的流順序的方法的實施方案,其包括以下步驟: (a)產生包含k鹼基長度的核苷酸種類的多個序列排序,其中所述序列排序定義將核苷酸種類引入邊合成邊測序反應環境的序列;(b)使用所述序列排序模擬從一個或更多個參考基因組獲取序列數據,其中所述序列數據包含相位同步誤差的累積;和(c)使用讀取長度參數和延伸率參數選擇所述序列排序中的一個或更多個。
【專利說明】用於產生和使用最佳核苷酸流順序的系統和方法

【技術領域】
[0001] 本發明涉及分子生物學領域。更具體而言,本發明涉及用於產生和採用經優化以 儘可能降低通常被稱為"邊合成邊測序(Sequencing-by-Synthesis) "(SBS)技術的技術產 生的核酸序列數據中的相位同步誤差的引入的流順序(flow order)的實施方案的系統和 方法。
[0002] 發明背景 邊合成邊測序(SBS) -般是指用於確定核酸樣品中一種或多種核苷酸的身份或序列 組成的方法,其中所述方法包括逐步合成與要被確定其核苷酸序列組成的模板核酸分子互 補的多核苷酸分子的單鏈。例如,SBS技術通常通過在對應序列位置向與模板分子的核酸 種類互補的新生多核苷酸分子添加單個核酸(也稱為核甘酸)種類而工作。一般利用本領 域中已知的多種方法來檢測核酸種類向新生分子的添加,這些方法包括,但不限於,所謂的 焦磷酸測序,所述焦磷酸測序可以包括酶促或電子(即利用ISFET或其它相關技術的pH檢 測)檢測策略或螢光檢測方法,在一些實施方案中,其可以採用可逆的終止劑。典型地,該 過程迭代,直到合成了完全(即,所有序列位置被表示)或期望的與模板互補的序列長度。 在美國專利號 6, 274, 320,7,211,390; 7,244,559; 7, 264, 929;和 7, 335, 762 中描述了 SBS技術的一些實例,所述專利的每一個在此出於所有目的以其整體通過引用併入本文。
[0003] 在SBS的一些實施方案中,設計寡核苷酸引物以對樣品模板分子的預定互補位置 退火。在核酸聚合酶存在的情況下,為引物/模板複合物提供核甘酸種類。如果核甘酸種類 與對應於樣品模板分子上直接與寡核苷酸引物的3'末端相鄰的序列位置的核酸種類互補, 那麼聚合酶將利用所述核甘酸種類延伸所述引物。或者,在一些實施方案中,立刻為引物/ 模板複合物提供多個目標核甘酸種類(典型地為A、G、C和T),並且在樣品模板分子上直接 與寡核苷酸引物的3'末端相鄰的對應序列位置處互補的核甘酸種類被摻入。如上所述,可 以通過本領域中已知的多種方法檢測核甘酸種類的摻入,例如,通過以酶促或電子方式檢 測焦磷酸鹽(PPi)或氫(H i)的釋放(美國專利號6, 210, 891; 6, 258, 568;和6, 828, 100 中描述的實例,所述專利的每一個在此出於所有目的以其整體通過引用併入本文),或通過 結合到核苷酸的可檢測標記。在典型的實施方案中,例如,通過洗滌去除未摻入的核苷酸。 在使用可檢測標記的實施方案中,通常必須在隨後合成循環之前將它們滅活(例如,通過 化學裂解或光漂白)。如上所述,然後可以利用另一核甘酸種類或多個目標核甘酸種類來查 詢模板/聚合酶複合物中的下一個序列位置。核甘酸添加、引物延伸、信號採集和洗滌的重 復循環導致模板鏈的核苷酸序列的確定。
[0004] 在SBS的典型實施方案中,在任何一個測序反應中同時分析大量或"克隆"群體的 基本上相同的模板分子(例如1〇 3、1〇4、1〇5、IO6或IO7個分子),以便獲得對於可靠檢測而 言足夠強的信號。對於低信噪比需要在給定反應的群體中與基本上所有模板分子相關聯的 新生分子的所謂的"均勻延伸"。如本文中使用,術語"均勻延伸"一般是指延伸反應的關 系或相位,其中上述基本上相同的模板分子的群體的每個成員均勻地進行反應中的相同步 驟。例如,當它們在針對每個相關聯的模板分子的相同序列位置進行相同的反應步驟時,可 以將與模板分子的群體相關聯的每個延伸反應描述為彼此同相(有時也稱為相位同步或 相位同步性)。
[0005] 然而,相關領域的普通技術人員將理解,每個群體中的一小部分模板分子與 該群體中的其餘模板分子失去或脫離相位同步性(即,與該部分模板分子相關聯的反 應在該群體上進行的測序反應中超前於或落後於其它模板分子)(在Ronaghi, M.的 "Pyrosequencing sheds light on DNA sequencing",Genome Res. 11,3_11(2001)中描 述了一些實例,在此出於所有目的以其整體通過引用併入本文)。例如,將一個或更多個核 甘酸種類適當地摻入一個或更多個新生分子中以將序列延伸了一個位置的反應的失敗導 致每個後續反應處於在群體的其餘部分的序列位置之後並且與其異相的序列位置。本文中 將該效應稱為"不完全延伸"(IE)。或者,在本文中將通過在位於群體的其餘部分的序列位 置之前並且與其異相的序列位置中摻入一個或更多個核甘酸種類而不適當地延伸新生分 子稱為"推進(carry forward) "(CF)。本文中將CF和IE的組合效應稱為CAFIE。
[0006] 普通技術人員將理解,IE和CF兩者誤差的潛在可能在延伸反應期間在每個序列 位置發生,並由此可能在所得到的序列數據中具有明顯的累積效應。例如,在朝向"序列讀 取"結束時,該效應可能變得尤其引人注目。
[0007] 此外,IE和CF效應可以為利用SBS方法可靠測序的模板分子的長度(有時稱為 "讀取長度")強加上限,因為序列數據的質量隨著讀取長度增加而降低。
[0008] SBS的一些實施方案已經成功應用數值建模和模擬方法來將來自SBS測序策略的 數據排序,以生物信息學地校正序列數據中的CAFIE誤差,以便延伸來自測序運行的可用 讀取長度。然而,此類方法對於來自SBS測序策略的序列讀取中發現的累積CAFIE誤差是 補償性的,並且沒有提供用於在測序運行期間CAFIE誤差的累積的機制。
[0009] 本文所述的SBS的實施方案根據預先確定的順序(也稱為"流順序","流模式",或 "核苷酸分配順序")將每個核苷酸種類個別系列引入測序反應環境。例如,SBS的實施方 案可以採用每個循環4個核苷酸種類(諸如核苷酸種類的TACG順序)的預定順序的重複 循環。在一些實施方案中,根據應用,流順序可以重複200到400次。然而,在實踐中,流順 序不需要是4個核苷酸種類循環重複,諸如如上所述的TACG。事實上,一些SBS應用已經利 用訂製的流順序,其針對序列先驗已知的擴增子的核苷酸序列,以儘可能增加由最小數量 的核苷酸種類流延伸的摻入的鹼基數(即,通過設計具有非常高的延伸率)。在所述擴增子 類型流順序實施方案中,流順序可以被解釋為由擴增子序列的序列組成定義的單一流順序 (即非環狀)。
[0010] 因此,期望延伸數值CAFIE校正和定製流順序設計的概念並實施測序運行期間降 低CAFIE類型誤差的累積或者可以校正一些CAFIE誤差的一個或更多個流順序。換言之,與 將CAFIE校正方法應用於測序數據相反,算法和建模可用於預測測序運行期間降低CAFIE 誤差的累積或者校正一些CAFIE誤差的更優化的流順序。
[0011] 本文中引用了多個參考文獻,其完整公開內容出於所有目的以其整體通過引用並 入本文。此外,不論上文如何表徵,這些參考文獻中的任一個都不被視為本文中要求保護的 主題的發明的現有技術。
[0012] 發明概述 本發明的實施方案涉及核酸序列的確定。更具體而言,本發明的實施方案涉及用於校 正通過SBS對核酸測序期間獲得的數據中的相位同步誤差的遞歸方法和系統。
[0013] 描述了用於產生儘可能降低序列數據中相位同步誤差的累積的流順序的方法 的實施方案,其包括以下步驟:(a)產生包含k鹼基長度的核苷酸種類的多個序列排序 (sequential ordering),其中所述序列排序定義將核苷酸種類引入邊合成邊測序反應環 境的序列;(b)使用所述序列排序模擬從一個或更多個參考基因組獲取序列數據,其中所 述序列數據包含相位同步誤差的累積;和(c)使用讀取長度參數和延伸率參數選擇所述 序列排序中的一個或更多個。
[0014] 描述了用於使用儘可能降低序列數據中相位同步誤差的累積的流順序測序核酸 模板的方法的進一步實施方案,其包括以下步驟:(a)將包含k鹼基長度的核苷酸種類的序 列排序引入邊合成邊測序反應環境,其中所述核苷酸種類的序列排序包含高讀取長度特徵 和低延伸率特徵;(b)從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的 一個或更多個群體的延伸反應中核苷酸種類的摻入的信號,其中所述信號包含落在延伸相 後面的一個或更多個群體的核酸模板分子的子集的誤差測量值;(c)循環重複引入核苷酸 種類的序列排序和獲取信號用於多次迭代,其中核酸分子的子集與延伸相重新同步,這降 低了由於序列排序的高讀取長度特徵和低延伸率特徵導致的誤差測量值。
[0015] 此外,描述了用於使用儘可能降低序列數據中相位同步誤差的累積的流順序測序 核酸模板的方法的另一個實施方案,其包括以下步驟:(a)將核苷酸種類的序列排序引入 邊合成邊測序反應環境;(b)從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板 分子的一個或更多個群體的延伸反應中核苷酸種類的摻入的多個第一信號;(c)使用所述 第一信號選擇核苷酸種類的第二序列排序,其中核苷酸種類的第二序列排序包含k鹼基長 度、高讀取長度特徵和低延伸率特徵;(d)將核苷酸種類的第二序列排序引入邊合成邊測 序反應環境;(e)從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個 或更多個群體的延伸反應中核苷酸種類的摻入的多個第二信號,其中所述第二信號包含落 在延伸相後面的一個或更多個群體的核酸模板分子的子集的誤差測量值;(f)循環重複引 入核苷酸種類的第二序列排序和獲取信號用於多次迭代,其中核酸分子的子集與延伸相重 新同步,這降低了由於序列排序的高讀取長度特徵和低延伸率特徵導致的誤差測量值。
[0016] 上述實施方案和實現不一定彼此包括或排斥,可以以任意不衝突的和其它可行的 方式相組合,無論它們是否與相同的或不同的實施方案或實現相結合地呈現。一個實施方 案或實現的描述無意對其它實施方案和/或實現進行限制。而且,在本說明書別處所述的 任意一個或更多個功能、步驟、操作或技術可以在替代實現中與在簡述中描述的任意一個 或更多個功能、步驟、操作或技術相組合。因而,上述的實施方案和實現是示例性的,而不是 限制性的。
[0017] 因此,本發明提供了用於產生儘可能降低序列數據中相位同步誤差的累積的流順 序的方法,其包括以下步驟: (a) 產生包含k鹼基長度的核苷酸種類的多個序列排序,其中所述序列排序定義將核 苷酸種類引入邊合成邊測序反應環境的序列; (b) 使用所述序列排序模擬從一個或更多個參考基因組獲取序列數據,其中所述序列 數據包含相位同步誤差的累積;和 (c) 使用讀取長度參數和延伸率參數選擇所述序列排序中的一個或更多個。
[0018] 序列數據的模擬獲取可包括使用推進參數和不完全的延伸參數,其模擬相位同步 誤差的累積。
[0019] k鹼基長度可選自16、24、32、和40個鹼基長度。此外,1^鹼基長度可包含範圍為 32-40個鹼基的長度。
[0020] 讀取長度參數可以包含含有小於3%的累積相位同步誤差的讀取長度的測量值延 伸率參數可以包含平均數目的與單核苷酸流可以延伸的模板分子互補的序列位置。
[0021] 選擇的序列排序包含高讀取長度參數和低延伸率參數。在一個實施方案中,讀取 長度參數大於約400 bp,且延伸率參數小於或等於約0. 55 bp/流,未完成率為0. 5%,並且 推進率為0. 5%。
[0022] 本發明還提供了用於使用儘可能降低序列數據中相位同步誤差的累積的流順序 測序核酸模板的方法,其包括以下步驟: (a) 將包含k鹼基長度的核苷酸種類的序列排序引入邊合成邊測序反應環境,其中所 述核苷酸種類的序列排序包含高讀取長度特徵和低延伸率特徵; (b) 從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個或更多 個群體的延伸反應中核苷酸種類的摻入的信號,其中所述信號包含落在延伸相後面的一個 或更多個群體的核酸模板分子的子集的誤差測量值; (c) 循環重複引入核苷酸種類的序列排序和獲取信號用於多次迭代,其中核酸分子的 子集與延伸相重新同步,這降低了由於序列排序的高讀取長度特徵和低延伸率特徵導致的 誤差測量值。
[0023] 邊合成邊測序反應環境可以包含孔的陣列。k鹼基長度可選自16、24、32、和40個 鹼基長度,或者可包含範圍為32-40個鹼基的長度。讀取長度特徵可以包含含有小於3%的 累積相位同步誤差的讀取長度的測量值。延伸率特徵包含平均數目的與單核苷酸流可以延 伸的模板分子互補的序列位置。讀取長度參數大於約400 bp,且延伸率參數小於或等於約 0. 55 bp/流,未完成率為0. 5%,推進率為0. 5%。
[0024] 本發明還提供了用於使用儘可能降低序列數據中相位同步誤差的累積的流順序 測序核酸模板的方法,其包括以下步驟: (a) 將包含k鹼基長度、高讀取長度特徵值和低延伸率特徵值的核苷酸種類的第一序 列排序引入邊合成邊測序反應環境; (b) 從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個或更多個 群體的延伸反應中核苷酸種類的摻入的多個第一信號; (c) 將包含k鹼基長度、高讀取長度特徵值和低延伸率特徵值的核苷酸種類的第二序 列排序引入邊合成邊測序反應環境,其中所述核苷酸種類的第二序列排序不同於所述核苷 酸種類的第一序列排序; (d) 從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個或更多個 群體的延伸反應中核苷酸種類的摻入的多個第二信號, 其中所述一個或更多個群體的一個或更多個子集落在延伸相後面,並且由於第一或第 二序列排序的序列組成而與後續流中的延伸相重新同步。
[0025] 再次,k鹼基長度可選自16、24、32、和40個鹼基長度,或者可包含範圍為32-40個 鹼基的長度。

【專利附圖】

【附圖說明】
[0026] 結合附圖,從下述的詳細描述會更清楚地理解以上和其它特徵。在附圖中,相同的 參考數字代表相同的結構、元件或方法步驟,並且參考數字的最左邊數字表示參考元件最 早出現的附圖的編號(例如,元件160最早出現在圖1中)。然而,所有這些約定意圖是典 型的或示例性的,而不是限制性的。
[0027] 圖1是在計算機控制和反應基質下的測序儀器的一個實施方案的原理框圖; 圖2是使用多個計算流順序的模擬邊合成邊測序過程對大腸桿菌參考序列的效果的 一個實施方案的簡化圖示; 圖3是使用多個計算流順序的模擬邊合成邊測序過程對大腸桿菌參考、嗜熱棲熱菌和 空腸彎曲桿菌序列的平均的效果的一個實施方案的簡化圖示;和 圖4A和4B是對於以流順序?ΧΓ和'TACG'的運行的映射長度直方圖和鹼基位置處 誤差的比較的一個實施方案的簡化圖示。
[0028] 發明詳述 如下面將更詳細地描述的,目前描述的本發明的實施方案包括用於產生和採用經優化 以儘可能降低通常被稱為"邊合成邊測序"(SBS)技術的技術產生的核酸序列數據中的相位 同步誤差的流順序的實施方案的系統和方法。如本文所述的"相位同步流順序"可以是在 測序和數據採集過程期間至少部分通過動態校正一些引入的CAFIE誤差而具有經計算以 降低CAFIE誤差的累積的序列組成的任何長度。還應當理解的是,相位同步流順序可以是 用於整個測序運行的單一流順序或循環迭代的較短長度的流順序。
[0029] a.通用 除非另有定義,本文所用的所有技術和科學術語和本發明所屬領域普通技術人員通常 理解的具有相同含義。與本文所述的方法或材料相同或等效的方法或材料可以用於本發明 的實施中,並且下文描述例舉的合適方法和材料。例如,可以描述包含多於兩個步驟的方 法。在此類方法中,並非需要所有步驟以實現定義的目標,且本發明設想使用分離的步驟來 實現這些離散目標。所有出版物、專利申請、專利和其它參考文獻的公開內容都通過引用並 入本文。此外,材料、方法和實例僅是說明性的,並不旨在進行限制。
[0030] 術語"流圖(f lowgram) "通常是指,通過SBS方法、特別是基於焦磷酸鹽的測序方 法(也稱作"焦磷酸測序")產生的序列數據的圖示,且可以更具體地稱作"焦磷酸測序譜 圖"。
[0031] 本文中使用的術語"讀取"或"序列讀取"通常是指,從單個核酸模板分子或多個 基本上相同的模板核酸分子拷貝群體得到的整個序列數據。
[0032] 本文中使用的術語"運行"或"測序運行"通常是指,在一個或更多個模板核酸分 子的測序操作中進行的一系列測序反應。
[0033] 本文中使用的術語"流"通常是指將核苷酸種類或試劑單一引入反應環境中,這通 常是包含模板核酸分子的迭代的邊合成邊測序過程的部分。例如,流可以包括溶液,所述溶 液包括核苷酸種類和/或一種或多種其它試劑(諸如緩衝劑、洗滌溶液或酶),所述試劑可 以用於測序過程中,或減少來自以前的核苷酸種類流的遺留或噪聲效應。
[0034] 本文中使用的術語"流順序"、"流模式"或"核苷酸分配順序"通常是指核苷酸種 類進入反應環境的流的預定系列。在一些實施方案中,流循環可以包括以T、A、C、G核苷酸 種類的順序或可以重複一種或多種核苷酸種類的其它順序依次添加4種核苷酸種類。
[0035] 本文中使用的術語"流循環"通常是指流順序的迭代,其中在一些實施方案中,流 循環是循環間具有相同流順序的重複循環,儘管在一些實施方案中,流順序在循環間可變 化。
[0036] 本文中使用的術語"讀取長度"通常是指,可以可靠地測序的模板分子的長度的上 限。許多因素有利於系統和/或方法的讀取長度,包括,但不限於模板核酸分子中的GC含 量的程度。
[0037] 本文中使用的術語"信號下降"通常是指檢測到的信號強度隨著讀取長度增加而 下降。
[0038] 本文中使用的術語"測試片段"或"TF"通常是指,可以用於質量控制、校正或其它 相關用途的已知序列組成的核酸成分。
[0039] 本文中使用的術語"引物"通常是指這樣的寡核苷酸:其在一定條件下充當DNA合 成的起點,在所述條件下,在合適的溫度,在適當的緩衝液中,誘發與核酸鏈互補的引物延 伸產物的合成。引物優選地是單鏈寡脫氧核糖核苷酸。
[0040] "新生分子"通常是指這樣的DNA鏈:其通過摻入與模板分子中的對應核苷酸種類 互補的核苷酸種類而被模板-依賴性的DNA聚合酶延伸。
[0041] 術語"模板核酸"、"模板分子"、"目標核酸"或"靶分子"通常是指,作為測序反應 的主題的核酸分子,從所述測序反應產生序列數據或信息。
[0042] 本文中使用的術語"核苷酸種類"通常是指,通常摻入新生核酸分子中的核酸單體 的身份,包括嘌呤(腺嘌呤、鳥嘌呤)和嘧啶(胞嘧啶、尿嘧啶、胸腺嘧啶)。"天然"核苷酸 種類包括,例如,腺嘌呤、鳥嘌呤、胞嘧啶、尿嘧啶和胸腺嘧啶。上述天然核苷酸種類的修飾 形式包括但不限於,α-硫代-三磷酸衍生物(諸如dATP a S)、次黃嘌呤、黃嘌呤、7-甲 基鳥嘌呤、5,6-二氫尿嘧啶和5-甲基胞嘧啶。
[0043] 本文中使用的術語"單體重複"或"同聚物"通常是指,包含相同核苷酸種類(即 重複的核苷酸種類)的2個或更多個序列位置。
[0044] 本文中使用的術語"均勻延伸"通常是指延伸反應的關係或階段,其中基本上相同 的模板分子群體中的每個成員均勻地進行反應中的相同延伸步驟。
[0045] 本文中使用的術語"完成效率"通常是指,在給定的流期間適當延伸的新生分子的 百分比。
[0046] 本文中使用的術語"不完全延伸率"通常是指,沒有適當延伸的新生分子的數目與 所有新生分子的數目之比。
[0047] 本文中使用的術語"基因組文庫"或"鳥槍法文庫"通常是指這樣的分子集合:其 源自和/或代表生物體或個體的整個基因組(即基因組的所有區域)。
[0048] 本文中使用的術語"擴增子"通常是指選擇的擴增產物,諸如從聚合酶鏈式反應或 連接酶鏈式反應技術生產的那些。
[0049] 本文中使用的術語"變體"或"等位基因"通常是指許多種類中的一種,所述種類各 自編碼類似的序列組成,但是彼此具有一定程度的區別。所述區別可以包括相關領域的普 通技術人員已知的任意類型的變異,包括、但不限於:多態性諸如單核苷酸多態性(SNP)、 插入或缺失(插入/缺失事件的組合也稱作"indels")、重複序列的數目的差異(也稱作 串聯重複)和結構變異。
[0050] 本文中使用的術語"等位基因頻率"或"等位基因的頻率"通常是指,所有變體在 由特定變體組成的群體中的比例。
[0051] 本文中使用的術語"關鍵序列(key sequence) "或"關鍵元件(key element) "通 常是指,與在已知位置(即,通常包括在連接的銜接元件中)中的具有已知序列組成的模板 核酸分子有關的核酸序列元件(通常在約4個序列位置,S卩,TGAC或核苷酸種類的其它組 合),其被用作從模板分子產生的序列數據的質量控制參照。如果序列數據包括與在正確位 置的關鍵元件有關的已知序列組成,則它通過質量控制。
[0052] 本文中使用的術語"關鍵通過(keypass) "或"關鍵通過孔(keypass well) "通常 是指,具有已知序列組成的全長核酸測試序列(即,"測試片段"或上面提及的"TF")在反 應孔中的測序,其中將源自TF序列的序列和/或與TF有關或在與目標核酸結合的銜接頭 中的關鍵序列的準確度與TF和/或關鍵(Key)的已知序列組成相對比,並用於測量測序準 確度和用於質量控制。在典型的實施方案中,在測序運行中的孔的總數的比例是關鍵通過 孔,在有些實施方案中,它們可以區域性分布。
[0053] 本文中使用的術語"平端"與相關領域的普通技術人員的理解一致地進行解釋,通 常是指具有用一對互補核苷酸鹼基種類結尾的末端的線性雙鏈核酸分子,其中一對平端通 常相容與彼此的連接。
[0054] 本文中使用的術語"粘性末端"或"突出端"與相關領域的普通技術人員的理解一 致地進行解釋,通常是指在分子的一條鏈的末端處具有一個或更多個未配對的核苷酸種類 的線性雙鏈核酸分子,其中所述未配對的核苷酸種類可以存在於任一條鏈上,且包括單個 鹼基位置或多個鹼基位置(有時也稱作"粘端")。
[0055] 本文中使用的術語"SPRI"是與相關領域的普通技術人員的理解一致地來解釋 的,並且通常是指"固相可逆固定(Solid Phase Reversible Immobilization) "的專利 技術,其中在存在珠粒的情況下並且在特定的緩衝劑條件下選擇性地沉澱目標核酸,其 中所述珠粒常常被羧化並且是順磁性的。所沉澱的目標核酸固定到所述珠粒上並且保 持與之結合,直到根據操作者的需要通過洗脫緩衝劑去除(DeAngelis, Margaret M. et al: Solid-Phase Reversible Immobilization for the Isolation of PCR Products. 如itfe Tfes (1995),Vol. 23:22; 4742-4743,其出於所有目的以其整體通過引用 併入本文)。
[0056] 本文中使用的術語"羧化"是與相關領域的普通技術人員的理解一致地來解釋的, 並且通常是指通過添加至少一個羧基來修飾材料諸如微粒。羧基是C00H或C00-。
[0057] 本文中使用的術語"順磁性"是與相關領域的普通技術人員的理解一致地來解釋 的,並且通常是指材料的特性,其中只有在存在外加磁場的情況下所述材料才具有磁性,並 且一旦去除了外加磁場之後就不再保留任何磁化。
[0058] 本文中使用的術語"珠粒"或"珠粒基質"通常是指具有任何便利的尺寸、具有 不規則或規則形狀的任何類型的固相顆粒,並且其是從許多已知材料製作的,所述材料諸 如:纖維素、纖維素衍生物、丙烯酸樹脂、玻璃、矽膠、聚苯乙烯、明膠、聚乙烯吡咯烷酮、乙 烯基和丙烯醯胺的共聚物、與二乙烯基苯等交聯的聚苯乙烯(描述在,例如,Merrifield, Biochemistry 1964,3,1385-1390)、聚丙烯醯胺、膠乳凝膠、聚苯乙烯、葡聚糖、橡膠、娃、 塑料、硝酸纖維素、天然海綿、矽膠、控制孔玻璃、金屬、交聯的葡聚糖(例如,Sephadex ?)、 瓊脂糖凝膠(瓊脂糖?)和本領域技術人員已知的其它固相珠子支持物,儘管可以理解,固 相基質可包括一定程度的孔隙率,使得流體和/或生物分子能夠滲透到孔中。
[0059] 本文中使用的術語"反應環境"通常是指通常可以在其中發生反應的一定體積的 空間,反應物被至少暫時性地包含或局限在其中從而允許檢測至少一種反應產物。反應環 境的實例包括,但不限於,比色皿、管、瓶以及平面或非平面基質上的一個或更多凹窩、孔或 腔室。
[0060] 本文中使用的術語"虛擬終止子"通常是指基本上減緩反應動力學的終止子,其中 可以採用額外步驟來終止反應,諸如去除反應物。
[0061] 在下面一般地描述了與樣品製備和加工、序列數據的產生和序列數據的分析有關 的系統和方法的一些示例性的實施方案,其中的一些或全部適合與本文所述的發明的實施 方案一起使用。具體地,描述了用於製備模板核酸分子、擴增模板分子、產生目標特異性的 擴增子和/或基因組文庫的系統和方法、測序方法和儀器以及計算機系統的示例性的實施 方案。
[0062] 在典型的實施方案中,源自實驗樣品或診斷樣品的核酸分子應該從它的粗形式制 備和加工成適合高通量測序的模板分子。所述加工方法可以隨應用不同而異,產生包含不 同特徵的模板分子。例如,在高通量測序的一些實施方案中,優選地產生這樣的模板分子: 其序列或讀取長度至少與特定測序方法可以準確地產生它的序列數據的長度相當。在本實 例中,所述長度可以包括約25-30個鹼基、約50-100個鹼基、約200-300個鹼基、約350-500 個鹼基、約500-1000個鹼基、大於1000個鹼基的範圍,或任何適合特定測序應用的其它長 度。在有些實施方案中,使用許多本領域普通技術人員已知的方法,將來自樣品(諸如基因 組樣品)的核酸片段化。在優選的實施方案中,所述方法隨機地片段化(即不對特定序列 或區域進行選擇)核酸,且可以包括所謂的霧化或超聲處理方法。但是,應當理解,其它片 段化方法,諸如使用限制性內切核酸酶消化,可以用於片段化目的。也在本實施方案中,一 些加工方法可以採用本領域已知的大小選擇方法,以選擇性地分離具有期望的長度的核酸 片段。
[0063] 另外,在一些實施方案中,優選地使額外的功能元件結合每種模板核酸分子。所述 元件可以用於多種功能,包括,但不限於,用於擴增和/或測序方法的引物序列、質量控制 元件(即諸如關鍵元件或其它類型的質量控制元件)、編碼不同結合(諸如與來源樣品或 患者樣品(sample of origin or patient)的結合)的獨特標識符(也稱作多路標識符或 "MID")或其它功能元件。
[0064] 例如,所述發明的一些實施方案包括:使具有已知的且可鑑別的序列組成的MID 元件的一個或更多個實施方案與樣品結合,並使MID元件的實施方案與來自結合樣品的模 板核酸分子相偶聯。將MID偶聯的、來自許多不同樣品的模板核酸分子合併成單個"多路化 的"樣品或組合物,其然後可以有效地加工,以生成每個MID偶聯的模板核酸分子的序列數 據。解卷積(de-convolute)每個模板核酸的序列數據,以鑑別偶聯的MID元件的序列組成 和與鑑別的來源樣品的結合。在本實施方案中,多路化的組合物可以包括來自約384個樣 品、約96個樣品、約50個樣品、約20個樣品、約16個樣品、約12個樣品、約10個樣品或其 它數目的樣品的代表。在研究背景下,每個樣品可以與不同的實驗條件、處理、材料或個體 相結合。類似地,在診斷背景下,每個樣品可以與不同的組織、細胞、個體、條件、藥物或其它 處理相結合。相關領域的普通技術人員將理解,上面列出的樣品的數目是用於示例目的,因 而不應視作限制性的。
[0065] 在優選的實施方案中,每個MID元件的序列組成是可容易地鑑別的,且不會導入 來自測序過程的誤差。MID元件的一些實施方案包括核酸種類的獨特序列組成,所述核酸種 類具有與天然存在的序列最小的序列相似性。或者,MID元件的實施方案可以包括與天然 存在的序列的一定程度的序列相似性。
[0066] 另外,在優選的實施方案中,已知每個MID元件的位置與模板核酸分子和/或偶聯 到模板分子上的銜接元件的某些特徵有關。已知每個MID的位置,可用於發現序列數據中 的MID元件和解釋可能出錯的MID序列組成,並隨後與來源樣品相關聯。
[0067] 例如,可用作與MID元件的位置關係的錨的某些特徵可以包括、但不限於:模板分 子的長度(即已知MID元件具有的從5'或3'端的許多序列位置)、可識別的序列標誌物諸 如位於MID元件附近的關鍵元件和/或一種或多種引物元件。在本實施方案中,所述關鍵元 件和引物元件通常包括已知序列組成,所述序列組成通常不會隨多路組合物中的樣品不同 而異,且可以用作檢索MID元件的位置參照。可以在計算機130上進行由應用程式135實 現的分析算法,以分析對每個MID偶聯的模板產生的序列數據,從而鑑別更容易識別的關 鍵元件和/或引物元件,並從那些位置推延,以鑑別據推測包括MID元件序列的序列區域。 應用程式135然後可以處理推測區域和在側接區中可能離開一定距離的序列組成,以確定 地鑑別出MID元件和它的序列組成。
[0068] 一些或所有所述的功能元件可以組合成銜接元件,所述銜接元件在某些加工步驟 中偶聯至核苷酸序列上。例如,一些實施方案可以將包含互補序列組成的引發序列元件或 區域結合到用於擴增和/或測序的引物序列上。此外,相同的元件可以用於所謂的核酸分 子的"鏈選擇"和核酸分子向固相基質的固定化。在有些實施方案中,2組引發序列區域(此 後稱作引發序列A和引發序列B)可以用於鏈選擇,其中僅具有引發序列A的一個拷貝和引 發序列B的一個拷貝的單鏈被選擇,且被包括為製備的樣品。在替代實施方案中,銜接元件 的設計特徵消除了對鏈選擇的需求。相同的引發序列區域可以用於擴增和固定化方法中, 其中,例如,可以將引發序列B固定化在固體基質上,並從其延伸擴增的產物。
[0069] 為片段化、鏈選擇以及功能元件和銜接頭的添加而加工樣品的額外實例描述在: 美國專利申請系列號 10/767, 894,標題為 "Method for preparing single-stranded DNA libraries",提交日為2004年I月28日;美國專利申請系列號12/156, 242,標題為"System and Method for Identification of Individual Samples from a Multiplex Mixture", 提交日為2008年5月29日;和美國專利申請系列號12/380, 139,標題為"System and Method for Improved Processing of Nucleic Acids for Production of Sequencable Libraries",提交日為2009年2月23日,它們各自出於所有目的在此以其整體通過引用並 入本文。
[0070] 描述了用於進行模板核酸分子的擴增以產生基本上相同的拷貝群體的系統和方 法的不同實施方案。普通技術人員顯而易見,在SBS的一些實施方案中,期望產生每個核酸 元件的很多拷貝,以在一種或多種核苷酸種類摻入與模板分子的拷貝結合的每個新生分子 中時產生更強的信號。本領域已知許多用於產生核酸分子拷貝的技術,例如,使用所謂的細 菌載體的擴增、"滾環"擴增(描述在美國專利號6, 274, 320和7, 211,390中,通過上述引用 併入)和聚合酶鏈式反應(PCR)方法,每種技術適合與本文所述的發明一起使用。特別適 合高通量應用的一種PCR技術包括所謂的乳劑PCR方法(也稱作emPCR方法)。
[0071] 乳劑PCR方法的典型實施方案包括:建立2種不混溶物質的穩定乳劑,從而建立可 以在其中發生反應的水性微滴。具體地,適合用於PCR方法中的乳劑的水性微滴可以包括: 第一流體諸如基於水的流體,其作為微滴(也稱作不連續相)懸浮或分散在另一種流體諸 如疏水流體(也稱作連續相)內,所述疏水流體通常包括某些類型的油。可以採用的油的 實例包括、但不限於:礦物油、基於有機矽的油或氟化的油。
[0072] 此外,有些乳劑實施方案可以採用表面活性劑,所述表面活性劑起穩定乳劑的作 用,它們可能特別有助於特定加工方法諸如PCR。表面活性劑的一些實施方案可以包括:有 機矽或氟化的表面活性劑中的一種或多種。例如,可以採用一種或多種非離子型表面活性 齊U,包括、但不限於:脫水山梨糖醇單油酸酯(也稱作Span 80),聚氧乙烯脫水山梨糖醇單 油酸酯(也稱作Tween 80),或在有些優選的實施方案中,採用聚二甲基矽氧烷共聚醇(也 稱作Abil EM90)、聚矽氧烷、聚烷基聚醚共聚物、聚甘油酯、泊洛沙姆和PVP/十六烷共聚物 (也稱作Unimer U-151),或在更優選的實施方案中,採用在環戊矽氧烷中的高分子量有機 娃聚醚(也稱作DC 5225C,可從Dow Corning得到)。
[0073] 乳劑的微滴也可以稱作隔室、微膠囊、微反應器、微環境或相關領域常用的其它名 稱。水性微滴的大小可以隨乳劑組分或組合物的組成、其中含有的內容物和採用的形成技 術而變化。所述的乳劑會建立微環境,在所述微環境中可以進行化學反應,諸如PCR。例 如,進行期望的PCR反應所需的模板核酸和所有試劑可以包囊在乳劑的微滴中,並化學地 分離。在一些實施方案中可以採用額外的表面活性劑或其它穩定劑,以促進如上所述的微 滴的額外穩定性。使用微滴可以進行PCR方法的典型熱循環操作,以擴增包囊的核酸模板, 導致包含模板核酸的許多基本上相同的拷貝的群體的產生。在有些實施方案中,在微滴內 的群體可以稱作"克隆地分離的"、"隔室化的"、"隔離的"、"包囊的"或"局部化的"群體。也 在本實施方案中,一些或所有所述的微滴可以進一步包囊固體基質諸如珠子,所述珠子用 於連接模板和擴增的模板拷貝、擴增的與模板互補的拷貝或它們的組合。此外,所述固體基 質可以能夠用於連接其它類型的核酸、試劑、標記或其它目標分子。
[0074] 在乳劑破裂和珠粒恢復之後,在典型的實施方案中可能還期望"富集"在其上固 定了模板核酸分子的基本上完全相同的拷貝的成功地擴增的群體的珠粒。例如,用於富集 "DNA陽性"的珠粒的處理可以包括:把引物種類雜交到通常在適配子序列中找到的已固定 的擴增拷貝的游離末端上的區域,利用聚合酶介導的延伸反應延伸引物,以及將引物結合 到富集基質諸如磁性或瓊脂糖珠粒。可以對包括珠粒的溶液施加選擇性條件,諸如磁場或 離心作用,其中富集珠粒對所述選擇性條件做出響應並且與"DNA陰性"的珠粒分離(即不 具有或者只有很少已固定拷貝)。
[0075] 可以與本文所述的發明一起使用的乳劑的實施方案可以包括:非常高密度的微滴 或微膠囊,它們使所述的化學反應能夠以整體平行的方式來實現。用於擴增的乳劑的額外 實例和它們用於測序應用的用途,描述在美國專利號7, 638, 276; 7, 622, 280; 7, 842, 457; 7,927,797;和8,012, 690以及美國專利申請系列號13/033,240中,它們各自出於所有目 的在此以其整體通過引用併入本文。
[0076] 有時稱作超深測序(Ultra-Deep Sequencing)的實施方案也會產生可以與本文所 述的發明一起使用的用於測序的目標特異性的擴增子,其包括使用特異性的核酸引物集合 來從包含目標核酸的樣品擴增選擇的一個或更多個目標區域。此外,所述樣品可以包括核 酸分子群體,所述群體已知或疑似含有這樣的序列變體:所述序列變體包含與研究或診斷 用途有關的序列組成,其中可以採用引物來擴增樣品中的序列變體並提供關於所述序列變 體的分布的洞察。例如,可以進行這樣的方法,所述方法通過核酸樣品中的多個等位基因的 特異性擴增和測序來鑑別序列變體。首先用一對PCR引物擴增核酸,所述引物設計成擴增 在目標區域周圍的區域或核酸群體共有的區段。隨後在單獨的反應器(諸如上述的基於 乳劑的容器)中單個地進一步擴增PCR反應的每種產物(第一擴增子)。對得到的擴增子 (在本文中稱作第二擴增子,各自源自第一擴增子群體的一個成員)測序,並使用序列集合 來確定存在的一個或更多個變體的等位基因頻率。重要的是,所述方法不需要事先知道存 在的變體,且通常可以鑑別出以〈1%頻率存在於核酸分子群體中的變體。
[0077] 所述的目標特異性的擴增和測序方法的一些優點包括:比以前實現的更高水平的 靈敏度,且特別可用於包含模板核酸分子的混合群體的策略。此外,採用高通量測序工具的 實施方案,諸如採用由454 Life Sciences Corporation提供的所謂的PicoTiterPlate孔 陣列(有時也稱作PTP平板或陣列)的實施方案,所述方法可以用於產生每次運行或實驗 超過100, 000、超過300, 000、超過500, 000或超過1,000, 000個核酸區域的序列組成,且可 能至少部分地取決於用戶選擇,諸如通過使用襯墊實現的泳道構型等。另外,所述方法會提 供低豐度等位基因(其可能佔存在於樣品中的等位基因變體的1%或更少)的檢測靈敏度。 所述方法的另一個優點包括:產生包括分析的區域的序列的數據。重要的是,不需要具有待 分析的基因座的序列的現有知識。
[0078] 用於測序的目標特異性的擴增子的額外實例描述在:美國專利申請系列號 11/104, 781,標題為 "Methods for determining sequence variants using ultra-deep sequencing",提交日為2005年4月12日;PCT專利申請系列號US 2008/003424,標題為 "System and Method for Detection of HIV Drug Resistant Variants",提交日為 2008 年3 月 14 日;和美國專利號7, 888, 034,標題為"System and Method for Detection of HIV Tropism Variants",提交日為2009年6月17日;和美國專利申請系列號12/592,243, 標題為 "SYSTEM AND METHOD FOR DETECTION OF HIV INTEGRASE VARIANTS",提交日為 2009年11月19日,它們各自出於所有目的在此以其整體通過引用併入本文。
[0079] 此外,測序的實施方案可以包括Sanger型技術、通常稱作邊雜交邊測序(SBH)、邊 連接邊測序(SBL)或邊摻入邊測序(SBI)技術的技術。所述測序技術還可以包括所謂的 polony測序技術;納米孔、波導和其它單分子檢測技術;或可逆的終止子技術。如上所述, 一種優選的技術可以包括邊合成邊測序方法。例如,有些SBS實施方案測序基本上相同的 核酸模板拷貝的群體,且通常採用一種或多種寡核苷酸引物,所述引物被設計成與樣品模 板分子的預定互補位置或與模板分子相連的一個或更多個銜接頭退火。在有核酸聚合酶存 在下,給引物/模板複合物提供核苷酸種類。如果核苷酸種類與核酸種類(其與樣品模板 分子上的直接鄰近寡核苷酸引物的3'末端的序列位置相對應)互補,則所述聚合酶會用核 苷酸種類延伸引物。或者,在一些實施方案中,給引物/模板複合物一次性提供許多目標核 苷酸種類(通常A、G、C和T),與在樣品模板分子上的直接鄰近寡核苷酸引物的3'末端的 對應序列位置處互補的核苷酸種類被摻入。在所述實施方案中的任一個中,可以化學地阻 斷核苷酸種類(諸如在3 ' -O位置),以防止進一步延伸,並需要在下一輪合成之前去阻斷。 還應當理解,向新生分子的末端添加核苷酸種類的過程,與上面關於向引物末端添加所述 的過程基本上相同。
[0080] 如上所述,通過本領域已知的多種方法,可以檢測核苷酸種類的摻入,所述方法 例如:通過檢測焦磷酸鹽(PPi)的釋放,其中使用酶促反應方法來生成光,或通過檢測H i 的釋放和測量pH變化(在美國專利號6, 210, 891 ; 6, 258, 568 ;和6, 828, 100中所述的 實例,它們各自出於所有目的在此以其整體通過引用併入本文),或通過結合到核苷酸上 的可檢測標記。可檢測標記的一些實例包括、但不限於:質量標籤和螢光的或化學發光的 標記。在典型的實施方案中,通過例如洗滌,去除未摻入的核苷酸。此外,在一些實施方 案中,可以對未摻入的核苷酸進行酶降解,諸如,例如,使用腺苷三磷酸雙磷酸酶或焦磷酸 酶的降解,這描述在:美國專利申請系列號12/215, 455,標題為"System and Method for Adaptive Reagent Control in Nucleic Acid Sequencing",提交日為 2008 年 6 月 27 日; 和 12/322, 284,標題為"System and Method for Improved Signal Detection in Nucleic Acid Sequencing",提交日為2009年I月29日;它們各自出於所有目的在此以其整體通過 引用併入本文。
[0081] 在使用可檢測標記的實施方案中,它們通常必須在下一個合成循環之前滅活(例 如通過化學裂解或光漂白)。然後可以如上所述,用另一個核苷酸種類或多個目標核苷酸種 類查詢模板/聚合酶複合物中的下一個序列位置。核苷酸添加、延伸、信號獲取和洗滌的重 復循環會導致模板鏈的核苷酸序列的確定。續接本實例,通常可以在任一個測序反應中同 時地分析大數目或大群體的基本上相同的模板分子(例如1〇 3、1〇4、1〇5、IO6或IO7分子),從 而實現對於可靠檢測而言足夠強的信號。
[0082] 另外,在一些實施方案中,可能有利的是,通過採用所謂的"配對末端"測序策略, 提高測序過程的讀取長度能力和性質。例如,測序方法的一些實施方案對可以產生高質量 和可靠讀取的分子的總長度具有限制。換而言之,可靠讀取長度的序列位置的總數可以不 超過25、50、100或500個鹼基,這取決於採用的測序實施方案。配對末端測序策略如下延 長可靠讀取長度:通過單獨地測序分子的每個末端(有時稱作"標籤"末端),所述分子包 括在每個末端處通過接頭序列連接至中心的原始模板核酸分子的片段。模板片段的原始位 置關係是已知的,因而來自序列讀取的數據可以重組成具有更長的高質量讀取長度的單個 讀取。配對末端測序實施方案的其它實例描述在:美國專利號7, 601,499,標題為"Paired end sequencing";和美國專利申請系列號 12/322, 119,標題為"Paired end sequencing", 提交日為2009年1月28日,它們各自出於所有目的在此以其整體通過引用併入本文。
[0083] SBS設備的一些實例可以實施前面描述的其中一些或所有方法,並且可以包括諸 如以下各項的檢測器件中的一項或更多項:用於光學檢測的電荷耦合器件(即CCD攝影 機)或共焦類型體系結構,用於針對離子或化學品檢測的結構的離子敏感場效應電晶體 (其也被稱作" ISFET")或化學品敏感場效應電晶體(其也被稱作"ChemFET"),微流體腔 室或流動池,反應基質,和/或泵和流量閥。以基於焦磷酸鹽的測序為例,一些設備的實施 方案可以採用產生固有地低水平背景噪聲的化學發光檢測策略。
[0084] 在一些實施方案中,用於測序的反應基質可以包括平面基質諸如載玻片型基質、 包含其中含有ISFET檢測元件的孔型結構的半導體晶片、或在一些實施方案中,其可以包 含孔型結構的波導型反應基質。此外,反應基質可以包括所謂的PTP陣列,該陣列可從454 Life Sciences Corporation得到,如上所述,其由纖維光學面板形成,所述面板被酸蝕刻, 以產生數十萬個或更多個非常小的孔,每個孔能夠容納基本上相同的模板分子群體(即, 有些優選的實施方案包含在70 X 75mm PTP陣列上的約330萬個孔,孔之間的間距為35 ym )。在一些實施方案中,每個基本上相同的模板分子群體可以安置在固體基質(諸如珠 子)上,每個固體基質可以安置在所述孔之一中。例如,裝置可以包括:試劑遞送元件(用 於為PTP平板底座提供流體試劑),以及CCD型檢測裝置(其能夠收集從PTP平板上的每個 孔發生出的光的光子)。包含用於提高信號識別的特徵的反應基質的實例描述在:美國專 利號 7, 682, 816,標題為 "THIN-FILM COATED MICROWELL ARRAYS AND METHODS OF MAKING SAME",提交日為2005年8月30日,其出於所有目的在此以其整體通過引用併入本文。用於 進行SBS型測序和焦磷酸鹽測序的裝置和方法的其它實例描述在:美國專利號7, 323, 305 和7, 575, 865,它們二者通過上述引用併入。
[0085] 另外,可以採用使一個或更多個樣品製備過程(諸如上述的emPCR過程)自動化 的系統和方法。例如,自動化的系統可以用於提供有效的溶液,所述溶液用於產生乳劑,所 述乳劑用於emPCR加工、進行PCR熱循環操作和富集成功地製備的核酸分子群體進行測 序。自動化的樣品製備系統的實例描述在:美國專利號7, 927, 797;和美國專利申請系列號 13/045, 210,其出於所有目的在此以其整體通過引用併入本文。
[0086] 另外,本文所述的本發明實施方案的系統和方法可以包括:實現某些設計、分析或 其它操作,所述操作使用為了在計算機系統上執行而儲存的計算機可讀介質。例如,下面詳 細描述了幾個實施方案,它們用於加工檢測到的信號和/或分析使用SBS系統和方法產生 的數據,其中所述加工和分析實施方案可在計算機系統上實現。
[0087] 在一些實施方案中,數據處理應用包括用於針對CAFIE誤差的累積校正原始序列 數據的算法。例如,可以將一些或所有CAIFE誤差因素精確地近似並應用到理論流圖模型, 以提供從實際測序運行獲得的真實數據的表示並隨後使用數學模型的反演來從觀察到的 流圖近似理論流圖。因此,可以將誤差的近似應用於觀察到的流圖中代表的實際測序數據, 以產生代表所有或基本上所有誤差因素被去除的目標核酸的序列組成的理論流圖。CAFIE 校正實施方案的額外實例描述於美國專利號8, 301,394 ;和8, 364, 417,其中每個出於所有 目的以其整體通過引用併入本文。
[0088] 用於與本文所述的發明一起使用的計算機系統的一個示例性實施方案可以包括 任意類型的計算機平臺,諸如工作站、個人計算機、伺服器或任意其它現有的或將來的計算 機。但是,本領域普通技術人員會理解,如本文所述的前述計算機平臺特別地構造成進行所 述發明的專門化操作,且不視作一般目的計算機。計算機通常包括已知的部件如處理器、操 作系統、系統內存、內存存儲裝置、輸入輸出控制器、輸入輸出裝置、和顯示裝置。相關領域 中的普通技術人員還應當理解,可能會有許多可能的計算機配置和部件,並也可能包括高 速緩衝存儲器、數據備份單元、和許多其它裝置。
[0089] 顯示裝置可以包括提供可視信息的顯示裝置,此信息通常可以被邏輯地和/或物 理性地組織為像素陣列。也可以包括界面控制器,界面控制器可以包括任何類型的用於提 供輸入輸出界面的已知或未來的軟體程序。例如,界面可以包括通常被定義為"圖形用戶界 面"(通常稱作GUI)的界面,圖形用戶界面提供給用戶一個或更多個圖形表示。界面通常 能夠接受用戶使用本領域中普通技術人員已知的選擇或輸入手段進行的輸入。
[0090] 在相同或可替換的實施方案中,計算機上的應用程式可以採用包括被稱為"命 令行界面"(經常稱為CLI)的界面。在應用程式和用戶之間,CLI通常提供基於文本的 交互。通常,命令行界面通過顯示裝置顯示輸出和接收輸入作為文本行。例如,一些實現 方法可以包括所謂的"殼(shell)",如相關領域的普通技術人員已知的Unix Shells,或 Microsoft Windows Powershell,其米用面向對象類型的編程體系結構例如Microsoft .NET framework。
[0091] 相關領域的普通技術人員會理解,界面可以包括一個或更多個⑶I、CLI或它們的 組合。
[0092] 處理器可以包括可商業得到的處理器,如Intel Corporation生產的Celeron、 Core或Pentium處理器,Sun Microsystems公司生產的SPARC處理器,AMD公司生產的 Athlon、Sempron、Phenom或Opteron處理器,或它可以是或將要變成可以使用的其它處理 器之一。處理器的一些實施方案可以包括所謂的多核處理器,和/或能夠在單核或多核配 置中採用並行處理技術。例如,多核結構通常包括兩個或更多個處理器"執行核"。在本實 施方案中,每個執行核可以以作為能夠並行執行多個線程的獨立處理器而運行。另外,相關 領域中的普通技術人員會理解,處理器可以被配置成通常所謂的32位或64位結構,或現在 已知或將來可能開發出的其它體系結構。
[0093] 處理器通常運行作業系統,所述作業系統可以是例如微軟公司的WINDOWS型操作 系統(諸如Windows XP、Windows Vista或Windows_7);蘋果電腦公司的Mac OS X操作系 統(諸如Mac OS X vlO. 6 "Snow Leopard"作業系統);可以從許多賣主或所謂的開源得 到的Unix或Linux-型作業系統;其它或未來的作業系統;或它們的一些組合。作業系統通 過眾所周知的方式與固件和硬體接口,並且幫助處理器調整和執行各種可以用多種編程語 言書寫的電腦程式的功能。作業系統通常與處理器協作地協調和執行計算機的其它部件 的功能。作業系統也會提供進度表、輸入-輸出控制、文件和數據管理、存儲管理、以及通信 控制及相關服務,所有的都依照已知的技術。
[0094] 系統存儲器可以包括任何類型的已知或未來的內存存儲設備。實例包括任何通 常可以獲得的隨機存取存儲器(RAM),磁介質例如駐存硬碟或磁帶,光學介質例如讀和寫光 盤,或其它內存存儲設備。內存存儲設備可以包括任何類型已知的或未來的設備,包括光 盤驅動、磁帶驅動、可移動硬碟驅動、USB或快閃記憶體、或磁碟驅動。這種類型的內存存儲設備通 常讀自和/或寫入到程序存儲介質中例如,分別為光碟、磁帶、可移動硬碟、USB或快閃記憶體或軟 盤。這些程序存儲介質中的任何一個或其它現在使用的或也許以後會開發的可以視為計算 機程序產品。如所期望的,這些程序存儲介質通常存儲計算機軟體程序和/或數據。計算 機軟體程序,也稱為計算機控制邏輯,通常被存儲在系統內存中和/或與內存存儲設備結 合使用的程序存儲設備中。
[0095] 在一些實施方案中,電腦程式產品被描述為包括計算機可用介質,該計算機可 用介質具有存儲在其中的控制邏輯(計算機軟體程序,包括程序代碼)。當由處理器執行 時,該控制邏輯使得處理器執行本文中所述的功能。在其它實施方案中,一些功能主要由使 用例如硬體狀態機的硬體實施。實施硬體狀態機以便執行本文中所述的功能對於相關領域 技術人員來說將是顯而易見的。
[0096] 輸入-輸出控制器可以包括任何類型的各種已知的用於接收和處理來自用戶信 息的設備,該用戶無論是人還是機器,無論是本地的還是遠程的。這樣的設備包括,例如調 制解調器卡、無線卡、網絡接口卡、音效卡、或用於任何類型各種已知輸入設備的其它類型的 控制器。輸出控制器可以包括用於向用戶顯示信息的任何類型的各種已知顯示設備的控制 器,該用戶無論是人還是機器,無論是本地還是遠程。在當前描述的實施方案中,計算機的 功能元件通過系統總線彼此相互通信。計算機的一些實施方案可以利用網絡或其它類型的 遠程通信與一些功能性的元件互相通信。
[0097] 正如相關領域的技術人員顯然得知的,工具控制和/或數據處理應用,如果用軟 件實施,則可以被載入並從系統內存和/或內存存儲設備中執行。所有或部分工具控制和/ 或數據處理應用也可以駐留在只讀內存中或內存存儲設備的類似設備中,這樣的設備不要 求工具控制和/或數據處理應用通過輸入-輸出控制器被首先加載。相關領域技術人員會 理解,工具控制和/或數據處理應用或它們的一部分可以由處理器以眾所周知的方式被載 入到系統內存中,或高速緩存中,或二者中,作為執行的優勢。
[0098] 另外,計算機可以包括存儲在系統內存中的一個或更多個庫文件、試驗數據文件、 以及網際網路客戶。例如,試驗數據可以包括與一個或更多個試驗或測定相關的數據諸如 檢測信號值,或其它與一個或更多個SBS試驗或處理相關聯的值。此外,網際網路客戶可以 包括能利用網絡訪問另一個計算機上的遠程服務的應用,並且例如可以包括通常所謂的 "網絡瀏覽器"。在本實施方案中,一些通常使用的網絡瀏覽器包括:可從微軟公司得到的 Microsoft Internet Explorer 8,可從 Mozilla 公司得到的 Mozilla Firefox 3. 6,可從 蘋果計算機公司得到的Safari 4,可從Google公司得到的Google Chrome,或現在已知的 或將來要開發的其它類型的網絡瀏覽器。此外,在相同實施方案或其它實施方案中,網際網路 客戶可以包括專用軟體應用程式(或可能成為它的一個元件),該專用軟體應用程式使得 能經由網絡(例如用於生物學應用的數據處理應用程式)來訪問遠程信息。
[0099] 網絡可以包括本領域普通技術人員所眾所周知的許多不同類型網絡中的一個或 更多個。例如,網絡可以包括區域網或廣域網,其可以使用通常所謂的TCP/IP協議組進行 通信。網絡可以包括互連的計算機網絡的全球系統的網絡(其通常稱為網際網路),或還可以 包括各種內聯網結構。相關領域的普通技術人員還會理解,一些用戶在網絡化的環境中可 能偏好使用通常所說的"防火牆"(有時候也稱為包過濾器(Pocket Filters)或邊界保護 設備(Border Protection Device))來控制去往和來自硬體和/或軟體系統的信息交換。 例如,防火牆可以包括硬體或軟體元件或它們的一些組合,並且通常設計成強化用戶設置 的安全規則,諸如,例如網絡管理等。
[0100] b.本f所沭的發明的實施方案 如上所述,所述發明涉及用於產生和採用經設計以儘可能降低通常被稱為SBS策略的 技術產生的核酸序列數據中的相位同步誤差的累積的相位同步流順序的實施方案的系統 和方法。
[0101] 在一個典型的測序實施方案中,可以採用一個或更多個儀器元件來自動化一個或 更多個過程步驟。例如,使用儀器來自動化和實現一些或所有過程步驟,可以進行測序方法 的實施方案。圖1提供了用於需要捕獲光信號的測序過程的測序儀器100的一個說明性實 例,其通常包括光學子系統和流體子系統,它們用於進行在反應基質105上發生的測序反 應和數據捕獲。但是,應當理解,對於需要其它數據捕獲模式(即PH、溫度、電流、電化學品 等)的測序過程,可以採用數據捕獲模式的子系統,它們是相關領域的普通技術人員已知 的。例如,可以由用戶101或一些自動化實施方案將模板分子的樣品加載到反應基質105 中,隨後利用測序儀器100按照大規模並行方式進行測序,以便產生代表每一個模板分子 的序列組成的序列數據。重要的是,用戶101可包括任何類型的測序技術的用戶。
[0102] 在一些實施方案中,使用配置以使用儀器100來進行測序必需的一些或所有的 樣品製備步驟的樣品製備儀器180,可以任選地以完全自動化的或部分自動化的方式製備 用於測序的樣品。本領域普通技術人員將理解,樣品製備儀器180被提供用於說明的目 的,並且可以代表各自設計用於實施與具體測序測定所需的樣品製備相關的一些或所有步 驟的一個或更多個儀器。樣品製備儀器的實例可以包括機器人平臺,諸如可從Hamilton Robotics, Fluidigm Corporation, Beckman Coulter 或 Caliper Life Sciences 得至Ij的 那些。
[0103] 此外,如圖I所示,測序儀器100可以可操作地連接至一個或更多個外部計算機組 件諸如計算機130,後者可以例如執行系統軟體或固件諸如應用程式135,後者可以提供一 個或更多個儀器(諸如測序儀器100或樣品製備儀器180)的指令控制和/或數據分析功 能。計算機130可以另外經由網絡150可操作地連接至其它計算機或伺服器,所述網絡可以 實現儀器系統的遠程操作和大量數據向能夠存儲和處理系統的輸出。在本實例中,測序儀 器100和/或計算機130可以包括本文一般地描述的實施方案的一些或所有組件和特徵。
[0104] 如上所述,一些先前所述的實施方案包括用於通過計算任何已知序列的相位同步 損失的程度(假設CF和IE的給定水平)而校正每次流負責累積的CAFIE誤差的檢測信號 值的系統和方法。
[0105] 下面所示表1提供了對於IE和CF的數學建模閾值的實例,對於不同讀取長度,所 述閾值提供99%或更好的精確度(例如,讀取至少99%表示模板分子的實際序列)。表1中 呈現的預測值說明了對於各種讀取長度CF和IE效應對測序精確度的影響,以及實現大致 99%的讀取精確度可以容忍的IE和CF誤差的程度。表1顯示,對於未校正的讀取,可允許 不大於1%的CF率(假設對於該群體IE等於零),以便使約100個序列位置的讀取長度為 99%精確(即,99%或更高的完成效率)。而且,可允許不大於0. 25%的IE率(假設CF率等 於零),以便使約100個序列位置的讀取長度為99%精確。
[0106] 表1.在不同讀取長度導致99%精確度的預測誤差率

【權利要求】
1. 用於產生儘可能降低序列數據中相位同步誤差的累積的流順序的方法,其包括以下 步驟: (a) 產生包含k鹼基長度的核苷酸種類的多個序列排序,其中所述序列排序定義將核 苷酸種類引入邊合成邊測序反應環境的序列; (b) 使用所述序列排序模擬從一個或更多個參考基因組獲取序列數據,其中所述序列 數據包含相位同步誤差的累積;和 (c) 使用讀取長度參數和延伸率參數選擇所述序列排序中的一個或更多個。
2. 權利要求1的方法,其中: 序列數據的模擬獲取包括使用推進參數和不完全延伸參數,其模擬相位同步誤差的累 積。
3. 權利要求1的方法,其中: k鹼基長度選自16、24、32、和40個鹼基長度。
4. 權利要求1的方法,其中: k鹼基長度包含範圍為32-40個鹼基的長度。
5. 權利要求1的方法,其中: 讀取長度參數包含含有小於3%的累積相位同步誤差的讀取長度的測量值。
6. 權利要求1的方法,其中: 延伸率參數包含平均數目的與單核苷酸流可以延伸的模板分子互補的序列位置。
7. 權利要求1的方法,其中: 選擇的序列排序包含高讀取長度參數和低延伸率參數。
8. 用於使用儘可能降低序列數據中相位同步誤差的累積的流順序測序核酸模板的方 法,其包括以下步驟: (a) 將包含k鹼基長度的核苷酸種類的序列排序引入邊合成邊測序反應環境,其中所 述核苷酸種類的序列排序包含高讀取長度特徵和低延伸率特徵; (b) 從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個或更多個 群體的延伸反應中核苷酸種類的摻入的信號,其中所述信號包含落在延伸相後面的一個或 更多個群體的核酸模板分子的子集的誤差測量值; (c) 循環重複引入核苷酸種類的序列排序和獲取信號用於多次迭代,其中核酸分子的 子集與延伸相重新同步,這降低了由於序列排序的高讀取長度特徵和低延伸率特徵導致的 誤差測量值。
9. 權利要求8的方法,其中: 邊合成邊測序反應環境包含孔的陣列。
10. 權利要求8的方法,其中: k鹼基長度選自16、24、32、和40個鹼基長度。
11. 權利要求8的方法,其中: k鹼基長度包含範圍為32-40個鹼基的長度。
12. 權利要求8的方法,其中: 讀取長度特徵包含含有小於3%的累積相位同步誤差的讀取長度的測量值。
13. 權利要求8的方法,其中: 延伸率特徵包含平均數目的與單核苷酸流可以延伸的模板分子互補的序列位置。
14. 權利要求8的方法,其中: 讀取長度參數大於約400 bp,且延伸率參數小於或等於約0.55 bp/流,未完成率為 0. 5%,推進率為0. 5%。
15. 用於使用儘可能降低序列數據中相位同步誤差的累積的流順序測序核酸模板的方 法,其包括以下步驟: (a) 將包含k鹼基長度、高讀取長度特徵值和低延伸率特徵值的核苷酸種類的第一序 列排序引入邊合成邊測序反應環境; (b) 從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個或更多個 群體的延伸反應中核苷酸種類的摻入的多個第一信號; (c) 將包含k鹼基長度、高讀取長度特徵值和低延伸率特徵值的核苷酸種類的第二序 列排序引入邊合成邊測序反應環境,其中所述核苷酸種類的第二序列排序不同於所述核苷 酸種類的第一序列排序; (d) 從邊合成邊測序反應環境獲取響應於基本上相同的核酸模板分子的一個或更多個 群體的延伸反應中核苷酸種類的摻入的多個第二信號, 其中所述一個或更多個群體的一個或更多個子集落在延伸相後面,並且由於第一或第 二序列排序的序列組成而與延伸相重新同步。
【文檔編號】G06F19/22GK104364789SQ201380025917
【公開日】2015年2月18日 申請日期:2013年5月16日 優先權日:2012年5月18日
【發明者】陳怡儒, C.T.A.黃 申請人:霍夫曼-拉羅奇有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀