新四季網

包含聚合物單元的聚合物的分析的製作方法

2023-09-21 07:57:50 2

包含聚合物單元的聚合物的分析的製作方法
【專利摘要】在聚合物(3)例如DNA中的聚合物單元的序列由涉及聚合物的至少一個測量的系列例如作為移位通過納米孔(1)的函數的離子電流來估計,其中每個測量值取決於k聚體,所述k聚體是k個聚合物單元(4)的組。提供了尤其是隱馬爾可夫模型(HMM)的概率模型,對於一組可能的k聚體,所述模型包括:表示從起源k聚體到目標k聚體的過渡的機會的過渡權重;以及表示觀測k聚體的測量的給定值的機會的關於每個k聚體的發射權重。利用參考模型的分析技術例如維特比解碼來分析測量的系列,並基於通過由聚合物單元的序列產生的測量的系列的模型所預測的似然來估計在聚合物中的聚合物單元的至少一種估計的序列。在進一步的實施方式中,在移位期間跨越納米孔施加不同的電壓以便改善聚合物單元的分辨力。
【專利說明】包含聚合物單元的聚合物的分析
[0001] 本發明總體上涉及通過進行涉及聚合物的測量來分析包含聚合物單元的聚合物 例如但不限於多核苷酸的領域。本發明的第一方面特別涉及在聚合物中聚合物單元的序列 的估計。本發明的第二和第三方面涉及在聚合物的移位期間測量流過納米孔(nanopore) 的離子電流,用於聚合物的分析。
[0002] 存在許多類型的測量系統,其提供聚合物的測量,用於分析聚合物和/或確定聚 合物單元的序列的目的。
[0003] 例如但不限於,一種類型的測量系統採用聚合物通過其移位的納米孔。系統的一 些性能取決於在納米孔中的聚合物單元,並進行上述性能的測量。例如,可以通過將納米孔 放置在絕緣膜中並在有分析物分子存在的條件下測量通過納米孔的電壓驅動的離子轉運 來產生測量系統。取決於納米孔的特性,通過它的獨特的離子電流特徵,可以揭示分析物的 同一'丨生(特性,identity),尤其是電流單元(current block)的持續時間和程度以及電流 水平的變化。上述類型的使用納米孔的測量系統大有前途,尤其是在多核苷酸如DNA或RNA 的測序領域,並且一直是最近很大發展的主題。
[0004] 在廣泛的應用範圍內,目前需要快速和廉價的核酸(例如DNA或RNA)測序技術。 現有技術是緩慢和昂貴的,主要是因為它們依靠擴增技術來產生大量的核酸並需要大量的 用於信號檢測的專門螢光化學物質。通過減少所需要的核苷酸和試劑的量,納米孔檢測有 可能提供快速和廉價的核酸測序。
[0005] 本發明涉及一種情況,其中每個測量的值取決於k個聚合物單元的組,其中k是正 整數(即'k聚體')。
[0006] 此外,典型的是,用於每個測量的值的許多類型的測量系統,包括大多數目前已知 的生物納米孔,是取決於k聚體,其中k是復整數(plural integer)。這是因為,多於一個 的聚合物單元有助於觀測到的信號並且可以概念上被認為是具有大於待測量的聚合物單 元的"鈍性讀出頭"的測量系統。在這樣的情況下,待解析的不同k聚體的數目增加到k的 乘方。例如,如果存在η個可能的聚合物單元,則待解析的不同k聚體的數目是n k。雖然 期望的是,在不同k聚體的測量之間具有清晰的分離,但常見的是,這些測量的一些是重疊 的。尤其是在k聚體中聚合物單元的高數目(即k的高值)的情況下,可以變得難以解析 由不同k聚體產生的測量,從而不利於導出關於聚合物的信息,例如聚合物單元的基本序 列的估計。
[0007] 因此,許多開發工作一直是針對可以改善測量的解析度的測量系統的設計。這在 實際測量系統中是困難的,這是由於測量的變化,其可以在不同程度上由基本物理或生物 系統的內在變化和/或由於待測量性能的較小幅度不可避免的測量噪聲產生。
[0008] 許多研究已旨在測量系統的設計,上述測量系統提供可分辨的測量,其取決於單 個聚合物單元。然而,這在實踐中已被證明是困難的。
[0009] 其它工作已接受取決於k聚體的測量,其中k是復整數,但已旨在設計這樣的測量 系統,其中來自不同k聚體的測量是彼此可分辨的。然而,實際限制再次意味著這是非常困 難的。由一些不同k聚體產生的信號的分布經常可以重疊。
[0010] 原則上,也許可以結合來自k個測量的信息,其中k是復整數,其各自部分地取決 於相同的聚合物單元以獲得在聚合物單元的水平上被解析的單值。然而,這在實踐中是困 難的。首先,這依賴於確定適宜的變換以變換一組k個測量的可能性。然而,對於許多測量 系統,由於在基本物理或生物系統中相互作用的複雜性,這樣的變換並不存在或對其加以 確定是不切實際的。其次,即使對於給定測量系統而言這樣的變換可以原則上存在,但測量 的變化使得這種變換難以確定和/或變換仍可能提供不能彼此加以解析的值。第三,藉助 於這樣的技術,難以或不可能考慮到錯過的測量,即其中取決於給定k聚體的測量在聚合 物單元的序列中失去,如在實際測量系統中有時可以是這種情況,例如由於測量系統未能 進行測量或由於在隨後數據處理中的錯誤。
[0011] 本發明的第一方面涉及提供這樣的技術,其改善由取決於k聚體的這種測量來估 計在聚合物中聚合物單元的序列的準確性。
[0012] 按照本發明的第一方面,提供了用於由涉及聚合物的至少一個測量的系列來估計 在聚合物中聚合物單元的序列的方法,其中每個測量的值取決於k聚體,k聚體是k個聚合 物單元的組,其中k是正整數,上述方法包括:
[0013] 提供模型,對於一組可能的k聚體所述模型包括:
[0014] 過渡權重(transition weightings),其表示從起源k聚體(起點k聚體,origin k-mers)到目標 k聚體(目的 k聚體,destination k-mers)的過渡(轉變,transitions) 的機會(chances),以及
[0015] 關於每個k聚體的發射權重(emission weightings),其表示觀測k聚體的測量的 給定值的機會;以及
[0016] 利用其指的是模型的分析技術來分析測量系列,並基於通過由聚合物單元的序列 產生的測量系列的模型所預測的似然(可能性,likelihood)來估計在聚合物中的聚合物 單元的至少一種估計的序列。
[0017] 進一步根據本發明的第一方面,提供了實施類似方法的分析設備。
[0018] 因此,本發明的第一方面利用了產生測量的測量系統的模型。給定任何測量系列, 模型表示已產生那些測量的k聚體的不同序列的機會。本發明的第一方面特別適合於這樣 的情況,其中每個測量的值取決於k聚體,其中k是復整數。
[0019] 上述模型考慮可能的k聚體。例如,在聚合物中,其中每個聚合物單元可以是4個 聚合物單元(或者更一般地η個聚合物單元)的一個,存在4 k種可能的k聚體(或者更一 般地nk種可能的k聚體),除非任何特定的k聚體物理上並不存在。對於可以存在的所有 k聚體,發射權重考慮到觀測測量的給定值的機會。關於每種k聚體的發射權重表示觀測k 聚體的測量的給定值的機會。
[0020] 過渡權重表示從起源k聚體到目標k聚體的過渡的機會,因此,考慮到k聚體的機 會,在不同k聚體之間的過渡的測量取決於上述k聚體。因此過渡權重可以考慮到更多和 更少可能的過渡。通過舉例的方式,其中k是復整數,對於給定起源k聚體,這可以表示與 非優選過渡相比優選過渡的更大的機會,所述優選過渡是到具有其中第一(k-Ι)聚合物單 元是起源k聚體的最後(k-Ι)聚合物單元的序列的目標k聚體的過渡,所述非優選過渡是 到具有不同於起源k聚體以及其中第一(k-Ι)聚合物單元不是起源k聚體的最後(k-Ι)聚 合物單元的序列的目標k聚體的過渡。例如,對於其中聚合物單元是天然存在的DNA鹼基 的3聚體,狀態CGT具有到GTC、GTG、GTT和GTA的優選過渡。通過舉例而非限制性地,模型 可以是其中過渡權重和發射權重是概率(probabilities)的隱馬爾可夫模型。
[0021] 這允許利用指的是模型的分析技術來分析測量系列。基於通過由聚合物單元的序 列產生的測量系列的模型所預測的似然來估計在聚合物中的聚合物單元的至少一種估計 的序列。例如但不限於,分析技術可以是概率技術。
[0022] 尤其是,來自單獨k聚體的測量不需要是彼此可分辨的,並且並不需要存在從取 決於相同聚合物單元的k個測量的組到關於變換的值的變換,即觀測到的狀態的組並不需 要是較小數目的參數的函數(雖然這並不被排除)。相反,上述模型的使用可以提供準確估 計,其中通過在考慮通過聚合物單元的序列產生的測量系列的模型所預測的似然時考慮到 多個測量。從概念上講,過渡權重可以被視為,在任何給定聚合物單元的估計中允許模型考 慮到至少k個測量,其部分取決於上述聚合物單元,並且確實還取決於來自在序列中的較 大距離的測量。在任何給定聚合物單元的估計中,上述模型可以有效地考慮到大量的測量, 從而給出可以是更準確的結果。
[0023] 類似地,這樣的模型的使用可以允許分析技術考慮到從給定k聚體失去的測量和 /或考慮到在由給定k聚體產生的測量中的離群值(outliers)。這可以用過渡權重和/或 發射權重加以解釋。例如,過渡權重可以表示至少一些非優選過渡的非零機會和/或發射 權重可以表示觀測所有可能的測量的非零機會。
[0024] 本發明的第二和第三方面涉及提供這樣的技術,利用當聚合物移位通過納米孔時 流過納米孔的離子電流的測量,其協助聚合物的分析。
[0025] 依據本發明的第二方面,提供了分析包含聚合物單元的聚合物的方法,該方法包 括:
[0026] 在聚合物移位通過納米孔期間,當跨越納米孔施加電壓時,進行測量,其取決於在 納米孔中k聚體的同一性,k聚體是聚合物的k個聚合物單元,其中k是正整數,其中關於 單獨k聚體的測量包括在跨越納米孔施加的不同水平的所述電壓下進行的分開測量;以及
[0027] 在所述不同水平的所述電壓下分析測量以確定至少部分聚合物的同一性。
[0028] 上述方法涉及進行測量,其取決於在納米孔中k聚體的同一性,k聚體是聚合物的 k個聚合物單元,其中k是正整數。尤其是,關於單獨k聚體的測量包括在跨越納米孔施加 的不同水平的所述電壓下進行的分開測量。本發明人已經認識到和證實,上述在跨越納米 孔施加的不同水平的所述電壓下的測量提供另外的信息,而不是僅僅重複的。例如,在不同 電壓下的測量允許不同狀態的解析度。例如,在給定電壓下不能被解析的一些k聚體可以 在另一電壓下被解析。
[0029] 本發明的第三方面提供了在跨越納米孔施加不同水平的電壓下進行測量的方法, 其可以可選地應用於本發明的第二方面。尤其是,根據本發明的第三方面,提供了對包含聚 合物單元的聚合物進行測量的方法,該方法包括:
[0030] 當跨越納米孔施加電壓時,進行所述聚合物通過納米孔的移位;
[0031] 在聚合物通過納米孔的所述移位期間,以一定循環,施加不同水平的所述電壓,以 及
[0032] 進行取決於在納米孔中k聚體的同一性的測量,k聚體是聚合物的k個聚合物單 元,其中k是正整數,上述測量包括以所述循環在所述不同水平的所述電壓下關於單獨k聚 體的分開測量,上述循環具有這樣的循環周期,其短於其中所述測量取決於所述單獨k聚 體的狀態。
[0033] 因此,本發明的第三方面提供了與本發明的第二方面相同的優點,尤其是測量提 供另外的信息,而不是僅僅重複的。在不同電壓下的測量提供了在隨後的測量分析中不同 狀態的分辨。例如,在給定電壓下不能被解析的一些狀態可以在另一電壓下被解析。
[0034] 這是基於這樣的創新,其中在聚合物通過納米孔的單個移位期間獲得在不同電壓 下的測量。這是通過以一定循環改變所述電壓的水平來實現,選擇上述循環使得循環周期 短於待測量的狀態的持續時間。
[0035] 然而,在本發明的第二方面內,並不必需使用這種方法。作為一種替代方案,可以 在聚合物通過納米孔的不同移位期間,其可以是在相同方向上的移位,或可以包括在相反 方向上的移位,在不同量值的電壓下,進行離子電流測量。
[0036] 因此,本發明的第二方面和第三方面的方法可以提供另外的信息,其改善隨後的 測量分析,以導出關於聚合物的信息。可以導出的信息的類型的一些實例如下。
[0037] 分析可以用來導出在狀態之間過渡的時序。在這種情況下,通過在不同電位下測 量每種狀態所提供的另外的信息會改善準確性。例如,在一種電壓下在兩種狀態之間的過 渡不能加以解析的情況下,通過在另一電壓下改變離子電流測量的水平可以確定上述過 渡。這潛在地允許鑑定這樣的過渡,其僅在一種電壓下工作將不是顯而易見的,或較高置信 度地確定過渡事實上並不發生。這種鑑定可以用於隨後的測量分析。
[0038] -般來說,相比於在一種電壓水平下可以獲得的,在不同電壓水平下進行測量會 提供更多信息。例如在通過納米孔的離子流的測量中,可以獲自測量的信息包括電流水平 和針對特定狀態的信號變化(噪聲)。例如對於DNA通過納米孔的移位,包含核苷酸鹼基G 的k聚體傾向於產生具有增加的信號變化的狀態。可能難以確定狀態的過渡是否已發生, 例如由於相應的狀態具有類似的電流水平或其中一種或兩種相應的狀態具有高信號變化。 對於不同電壓水平,針對特定狀態的電流水平和信號變化可以不同,因而在不同電壓水平 下的測量可以使得能夠確定高變化狀態或增加在確定狀態時的置信水平。因此,相比於另 一個電壓水平,在一種電壓水平下,可以更容易確定在狀態之間的過渡。
[0039] 分析可以是估計聚合物的同一性或估計在聚合物中聚合物單元的序列。在這種情 況下,由在不同電位下每個狀態的測量提供的另外的信息會改善估計的準確性。
[0040] 在估計聚合物單元的序列的情況下,分析可以使用根據本發明的第一方面的方 法。因此,以任何組合,本發明的第一方面的特點可以與本發明的第二方面和/或第三方面 的特點結合。
[0041] 進一步根據本發明的第二和第三方面,提供了用來實施類似方法的分析設備。
[0042] 為了允許更好的理解,現將通過非限制性實例參照附圖來描述本發明的實施方 式,其中:
[0043] 圖1是包括納米孔的測量系統的示意圖;
[0044] 圖2是隨著時間的推移通過測量系統測得的事件的信號圖;
[0045] 圖3是在包括納米孔的測量系統中兩種不同多核苷酸的測量的頻率分布圖;
[0046] 圖4和5分別是64個3聚體系數和1024個5聚體系數的圖(plot),其相對於來 自適用於實驗得出的電流測量的集合的一階線性模型的預測值;
[0047] 圖6是包含聚合物的測量的輸入信號的分析方法的流程圖;
[0048] 圖7是圖6的狀態檢測步驟的流程圖;
[0049] 圖8是圖6的分析步驟的流程圖;
[0050] 圖9和10分別是經受狀態檢測步驟的輸入信號和產生的測量系列的曲線圖;
[0051] 圖11是躍遷矩陣(轉換矩陣,transition matrix)的圖形表示;
[0052] 圖12是在模擬實例中關於k聚體狀態的預期測量的圖;
[0053] 圖13示出模擬自圖12所示的預期測量的輸入信號;
[0054] 圖14示出源自圖13的輸入信號的一系列測量;
[0055] 圖15和16示出過渡權重的相應的躍遷矩陣;
[0056] 圖17至19是具有分別為高斯、三角(triangular)和正方(square)的可能的分 布的發射權重的圖;
[0057] 圖20是在一組模擬測量和圖12所示的預期測量之間的電流的空間排列(電流的 空間比對,current space alignment)的圖;
[0058] 圖21是在實際k聚體和從圖20的模擬測量估計的k聚體之間的k聚體空間排列 的圖;
[0059] 圖22是在另一組模擬測量和圖12所示的預期測量之間的電流的空間排列的圖;
[0060] 圖23和24是在實際k聚體和分別藉助於圖15和16的躍遷矩陣從圖22的模擬 測量估計的k聚體之間的k聚體空間排列的圖;
[0061] 圖25是具有小的非零背景的正方分布的發射權重的散布圖,其中分布集中於圖 12的預期測量上;
[0062] 圖26是在實際k聚體和藉助於圖15的躍遷矩陣和圖25的發射權重從圖20的模 擬測量估計的k聚體之間的k聚體空間排列的圖;
[0063] 圖27是具有零背景的正方分布的發射權重的圖,其中分布集中於圖12的預期測 量上;
[0064] 圖28是在實際k聚體和藉助於圖15的躍遷矩陣和圖27的發射權重從圖20的模 擬測量估計的k聚體之間的k聚體空間排列的圖;
[0065] 圖29是利用鏈黴親和素由保持在MS-(B2) 8納米孔中的DNA鏈獲得的電流測量的 散布圖;
[0066] 圖30是用於示例性訓練過程的躍遷矩陣;
[0067] 圖31是圖30的躍遷矩陣的放大部分;
[0068] 圖32和33是分別對於源自靜態訓練過程的64種k聚體的模型和上述模型平移 成大約400種狀態的模型的發射權重的圖;
[0069] 圖34是訓練過程的流程圖;
[0070] 圖35是由圖34的訓練過程確定的發射權重的圖;
[0071] 圖36是利用來自模型的預期測量在許多實驗上匯集的電流測量的圖;
[0072] 圖37是在實際k聚體和估計k聚體之間的k聚體空間排列的圖;
[0073] 圖38示出用實際序列校準的估計k聚體的估計序列;
[0074] 圖39示出聚合物的有義和反義區的單獨的估計序列,以及通過處理來自以兩個 相應的維度設置的有義和反義區的測量所導出的估計序列;
[0075] 圖40是在第一實例中在三種不同電壓下在納米孔中的一組DNA鏈的離子電流測 量的一組柱狀圖;
[0076] 圖41是在第二實例中在共同時間期間內對納米孔中的單鏈的施加電位和生成的 離子電流的一對圖;
[0077] 圖42至45是在第二實例中分別水平索引在4個水平的電壓下每個DNA鏈的測得 電流的散布圖;
[0078] 圖46是在第二實例中相對於施加電壓測得的每個DNA鏈的電流圖;
[0079] 圖47是在第二實例中相對於施加電壓每個DNA鏈的電流測量的標準偏差圖;
[0080] 圖48是用於進行離子電流測量的方法的流程圖;
[0081] 圖49和50各自是在第三實例中在共同時間期間內施加電位和生成的離子電流的 一對圖;
[0082] 圖51是用於進行離子電流測量的一種替代方法的流程圖;以及
[0083] 圖52a和52b是在相同的時間尺度上跨越納米孔施加的成形電壓步驟和產生的電 流的圖。本發明的所有方面可以應用於如下聚合物範圍。
[0084] 聚合物可以是多核苷酸(或核酸)、多肽如蛋白、多糖、或任何其它聚合物。聚合物 可以是天然或合成的。
[0085] 在多核苷酸或核酸的情況下,聚合物單元可以是核苷酸。核酸通常是脫氧核糖核 酸(DNA)、核糖核酸(RNA)、cDNA或合成核酸(在本領域中已知的),如肽核酸(PNA)、甘油 核酸(GNA)、蘇糖核酸(TNA)、鎖核酸(LNA)或具有核苷酸側鏈的其它合成聚合物。核酸可 以是單鏈、是雙鏈、或包含單鏈和雙鏈區。通常,cDNA、RNA、GNA、TNA或LNA是單鏈的。本發 明的方法可以用來確定任何核苷酸。核苷酸可以是天然存在的或人工的。核苷酸通常包含 核鹼、糖和至少一個磷酸酯基團。核鹼通常是雜環的。適宜的核鹼包括嘌呤和嘧啶以及更 具體地腺嘌呤、鳥嘌呤、胸腺嘧啶、尿嘧啶和胞嘧啶。上述糖通常是戊糖。適宜的糖包括但 不限於核糖和脫氧核糖。核苷酸通常是核糖核苷酸或脫氧核糖核苷酸。核苷酸通常包含單 磷酸酯、二磷酸酯或三磷酸酯。
[0086] 核苷酸可以是損傷或表遺傳鹼基。核苷酸可以被標記或修飾以作為具有明顯信號 的標記物。這種技術可以用來確定鹼基的缺乏,例如,在多核苷酸中的無鹼基單元或隔離 物。上述方法也可以應用於任何類型的聚合物。
[0087]當考慮修飾或損傷DNA (或類似系統)的測量時,具有特別用途的是其中考慮互補 數據的方法。提供的另外的信息允許在較大數目的基本狀態之間加以區別。
[0088] 在多肽的情況下,聚合物單元可以是天然存在的或合成的胺基酸。
[0089] 在多糖的情況下,聚合物單元可以是單糖。
[0090] 本發明可以應用於通過一範圍的測量系統進行的測量(如下文進一步討論的)。
[0091] 根據本發明的所有方面,測量系統可以是包括納米孔的納米孔系統。在這種情況 下,可以在聚合物移位通過納米孔期間進行測量。聚合物通過納米孔的移位會產生在測得 特性中的特徵信號,其可以被觀測到,並且可以作為總體被稱為"事件"。
[0092] 納米孔是孔,通過具有納米級的尺寸,其允許聚合物通過其中。可以測量取決於聚 合物單元移位通過孔的性能。上述性能可以與在聚合物和孔之間的相互作用相關。在孔的 狹窄區(constricted region)處可以發生聚合物的相互作用。測量系統測量性能,從而產 生取決於聚合物的聚合物單元的測量。
[0093] 納米孔可以是生物孔或固態孔。
[0094] 在納米孔是生物孔的情況下,它可以具有以下性能。
[0095] 生物孔可以是跨膜蛋白質孔。根據本發明使用的跨膜蛋白質孔可來自β_桶孔 (barrel pore)或α-螺旋束孔。β-桶孔包含桶或通道,其由β-鏈形成。適宜的β-桶 孔包括但不限於β-毒素,如α-溶血素、炭疽毒素和殺白細胞素,以及細菌的外膜蛋白/ 孔蛋白,如恥垢分枝桿菌孔蛋白(Mycobacterium smegmatis porin) (Msp),例如MspA、外膜 孔蛋白F(0mpF)、外膜孔蛋白G(0mpG)、外膜磷脂酶A和奈瑟菌自轉運脂蛋白(NalP)。α-螺 旋束孔包含桶或通道,其由α-螺旋形成。適宜的α-螺旋束孔包括但不限於內膜蛋白和 α外膜蛋白,如WZA和ClyA毒素。跨膜蛋白可以源自Msp或源自α-溶血素(a-HL)。
[0096] 跨膜蛋白質孔通常源自Msp,優選源自MspA。這樣的孔將是寡聚的並且通常包含 源自Msp的7、8、9或10個單體。孔可以是源自包含相同單體的Msp的同源寡聚體孔。可 替換地,孔可以是異寡聚體孔,該異寡聚體孔源自Msp,其包含至少一種不同於其它單體的 單體。上述孔還可以包含一種或多種構建體,其包含源自Msp的兩種或更多種共價連接單 體。適宜的孔披露於美國臨時申請號61/441,718(2011年2月11日提交)中。優選地,上 述孔來自MspA或其同系物或旁系同源物(paralog)。
[0097] 生物孔可以是天然產生的孔或可以是突變體孔。典型孔描述於 W0-2010/109197,Stoddart D et al.,Proc Natl Acad Sci, 12 ; 106 (19):7702-7, Stoddart D et al.,Angew Chem Int Ed Engl. 2010 ;49(3):556-9,Stoddart D et al.,Nano Lett. 2010Sep8 ;10 (9) :3633-7,Butler TZ et al. , Proc Natl Acad Sci2008 ; 105(52) :20647-52,以及美國臨時申請61/441718中。
[0098] 生物孔可以是MS-(Bl) 8。編碼B1的核苷酸序列和B1的胺基酸序列示於下文(Seq ID:1 和 Seq ID:2)。
[0099] Seq ID 1:MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0100] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGAT ACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATA TATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCAC TGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTCTGATCAACAATGGTAACATTACCGCACCGCCGTTT GGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCAT TCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCG TTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACC TATGGCGAACCGTGGAATATGAACTAA
[0101] Seq ID2:MS-(B1)8 = MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0102] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYOIG FPWSLGVGINFSYTTPNILIMGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSN AHGTVTGAAGGVLLRPFARLIASTCDSVTTYGEPWNMN
[0103] 生物孔更優選地是MS-(B2)8。除突變L88N之外,B2的胺基酸序列與Bl的胺基酸 序列相同。編碼B2的核苷酸序列和B2的胺基酸序列示於下文(Seq ID :3和Seq ID :4)。
[0104] Seq ID3:MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R ?E139K)8
[0105] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGAT ACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATA TATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCAC TGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTAACATCAACAATGGTAACATTACCGCACCGCCGTTT GGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCAT TCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCG TTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACC TATGGCGAACCGTGGAATATGAACTAA
[0106] Seq ID4:MS-(B2)8 = MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8
[0107] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYQIG FPWSLGVGINFSYTTPNININNGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSN AHGTVTGAAGGVLLRPFARLIASTCDSVTTYGEPWNMN
[0108] 可以將生物孔插入兩親層如生物膜,例如脂雙層中。兩親層是這樣的層,其由具有 親水性和親脂性的兩親分子如磷脂形成。兩親層可以是單層或雙層。兩親層可以是共嵌段 聚合物如由(Gonzalez-Perez et al.,Langmuir,2009, 25, 10447-10450)所披露的。可替換 地,可以將生物孔插入固態層中。
[0109] 可替換地,納米孔可以是固態孔,其包含在固態層中形成的孔。
[0110] 固態層並不是生物起源的。換句話說,固態層不是源自或分離自生物環境如生物 體或細胞、或生物可利用結構的合成製造形式。固態層可以由有機和無機材料形成,其包括 但不限於微電子材料,絕緣材料如Si3N4、A1203、和SiO,有機和無機聚合物如聚醯胺塑料 如Teflon?或彈性體如雙組分加成固化矽橡膠,以及玻璃。固態層可以由石墨烯形成。適 宜的石墨烯層披露於W02009/035647和W0-2011/046706中。
[0111] 固態孔通常是在固態層中的孔。可以用化學方式或其它方式來改性孔,以增強 其作為納米孔的性能。可以連同另外的元件一起來使用固態孔,其中上述另外的元件提 供聚合物的替代的或附加的測量,如隧道電極(Ivanov AP et al.,Nano Lett. 2011Janl2 ; 11 (1) :279-85)、或場效應電晶體(FET)裝置(國際申請W02005/124888)。可以通過已知方 法,包括例如在W000/79257中描述的那些方法,來形成固態孔。
[0112] 在一種類型的測量系統中,可以使用流過納米孔的離子電流的測量。可以利用如 描述於 Stoddart D et al.,Proc Natl Acad Sci, 12 ; 106 (19) : 7702-7, Lieberman KR et al,J Am Chem Soc. 2010 ;132 (50) :17961-72和國際申請W0-2000/28312中的標準單通道記錄裝 置,來進行這些和其它電子測量。可替換地,可以利用例如描述於國際申請W0-2009/077734 和國際申請W0-2011/067559中的多通道系統來進行電子測量。
[0113] 為了允許當聚合物移位通過納米孔時進行測量,可以通過聚合物結合部分來控制 移位速率。通常,藉助於或針對施加場,該部分可以移動聚合物通過納米孔。該部分可以是 分子馬達,其利用例如,在該部分是酶的情況下,酶促活性,或作為分子剎車。在聚合物是多 核苷酸的情況下,提出了許多方法來控制移位速率,包括使用多核苷酸結合酶。用於控制 多核苷酸的移位速率的適宜的酶包括但不限於聚合酶、螺旋酶、外切核酸酶、單鏈和雙鏈結 合蛋白、以及拓撲異構酶,如促旋酶。對於其它聚合物類型,可以使用與上述聚合物類型相 互作用的部分。聚合物相互作用部分可以是任何披露於國際申請號PCT/GB10/000133或 US61/441718(LiebermanKRet al,J Am ChemSoc. 2010 ; 132 (50) :17961-72)中,以及用於電 壓門控方案(Luan Bet al.,Phys Rev Lett. 2010 ;104(23) :238103)中的部分。
[0114] 可以以許多方式來使用聚合物結合部分以控制聚合物移動。藉助於或針對施加 場,上述部分可以移動聚合物通過納米孔。上述部分可以用作分子馬達,其利用例如,在上 述部分是酶的情況下,酶促活性,或作為分子剎車。可以通過控制聚合物通過孔的移動的分 子棘輪(molecular ratchet),來控制聚合物的移位。分子棘輪可以是聚合物結合蛋白。對 於多核苷酸,多核苷酸結合蛋白優選是多核苷酸處理酶。多核苷酸處理酶是一種多肽,其能 夠與多核苷酸相互作用並改進多核苷酸的至少一種性能。上述酶可以通過切割其來修飾多 核苷酸以形成單個核苷酸或核苷酸的較短鏈,如二或三核苷酸。上述酶可以通過定向它或 移動它到特定位置來修飾多核苷酸。多核苷酸處理酶並不需要顯示酶促活性,只要它能夠 結合靶多核苷酸並控制它通過孔的移動。例如,可以修飾上述酶以除去它的酶促活性,或可 以在防止它作為酶的條件下加以使用。下文更詳細地討論這樣的條件。
[0115] 多核苷酸處理酶可以源自核水解酶。在酶的構建體中使用的多核苷酸處理酶更 優選地源自任何酶分類(EC)組 3. 1. 11、3· 1. 13、3· 1. 14、3· 1. 15、3· 1. 16、3· 1. 21、3· 1. 22、 3· 1·25、3· 1·26、3· 1·27、3· 1.30和3. 1.31的成員。上述酶可以是披露於國際申請號PCT/ GB10/000133(公開為 W02010/086603)中的任何酶。
[0116] 優選的酶是聚合酶、外切核酸酶、螺旋酶和拓撲異構酶,如促旋酶。適宜的酶包括 但不限於來自大腸桿菌的外切核酸酶I(SEQ ID N0:8)、來自大腸桿菌的外切核酸酶III酶 (SEQIDN0:10)、來自極端嗜熱菌(T·thermophilus)的RecJ(SEQIDN0:12)和噬菌體λ夕卜 切核酸酶(SEQ ID N0:14)以及它們的變體。包含示於SEQ ID N0:14中的序列或其變體的 三個亞單位相互作用以形成三聚體外切核酸酶。上述酶優選源自Phi29DNA聚合酶。源自 Phi29聚合酶的一種酶包含示為SEQ ID N0:6或其變體的序列。
[0117] SEQ ID N0:6、8、10、12或14的變體是一種酶,該酶具有胺基酸序列,其不同於SEQ ID N0:6、8、10、12或14的胺基酸序列並且其保留多核苷酸結合能力。上述變體可以包括修 飾,其促進多核苷酸的結合和/或促進它在高鹽濃度和/或室溫下的活性。
[0118] 對於SEQ ID N0:6、8、10、12或14的胺基酸序列的整個長度,基於胺基酸同一性,變 體將優選至少50 %同源於上述序列。更優選地,對於整個序列,基於胺基酸同一性,變體多 肽可以是至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至 少90%以及更優選地至少95%、97%或99%同源於SEQ ID N0:6、8、10、12或14的胺基酸 序列。對於200或更多,例如230、250、270或280或更多相鄰胺基酸的一段序列,可以存在 至少80%,例如至少85%、90%或95%的胺基酸同一性("硬同源性")。如上所述,確定同 源性。以上文討論的任何方式,參比SEQ ID N0:2,變體可以不同於野生型序列。如上文所 討論的,酶可以共價連接於孔。
[0119] 用於單鏈DNA測序的兩種策略是,藉助於或針對施加電位,順式至反式和反式至 順式地使DNA移位通過納米孔。用於鏈測序的最有利的機制是在施加電位下單鏈DNA通過 納米孔的受控移位。逐漸地或持續地作用於雙鏈DNA的外切核酸酶可以用於孔的順側以在 施加電位下使剩餘單鏈進料通過,或在反向電位下用於反側。同樣,還可以以類似的方式 來使用解旋雙鏈DNA的螺旋酶。也有可能是這樣的測序應用,其需要相對於施加電位的鏈 移位,但DNA必須在反向或沒有電位下首先被酶"捕獲"。在結合以後,藉助於切換回來的 電位,鏈將順式至反式通過孔並通過電流而被保持處於伸展構象。單鏈DNA外切核酸酶或 單鏈DNA依賴性聚合酶可以作為分子馬達,以相對於施加電位,反式至順式,以受控分步方 式,通過孔,拉回最近移位的單鏈。可替換地,單鏈DNA依賴性聚合酶可以作為分子剎車,其 用來放慢多核苷酸通過孔的移動。在臨時申請US61/441718或US臨時申請號61/402903 中描述的任何部分、技術或酶可以用來控制聚合物移動。
[0120] 然而,替代類型的測量系統和測量也是可能的。
[0121] 以下是替代類型的測量系統的一些非限制性實例。
[0122] 測量系統可以是掃描探針顯微鏡。掃描探針顯微鏡可以是原子力顯微鏡(AFM)、掃 描隧道顯微鏡(STM)或另一種形式的掃描顯微鏡。
[0123] 在讀數器是AFM的情況下,相比於單個聚合物單元的維度,AFM尖端的解析度可以 是較不精細的。因此,測量可以是多個聚合物單元的函數。AFM尖端可以被功能化,從而以 替代方式與聚合物單元相互作用或如果它未被功能化。可以以接觸模式、非接觸模式、輕敲 模式或任何其它模式來操作AFM。
[0124] 在讀數器是STM的情況下,相比於單個聚合物單元的維度,測量的解析度可以是 較不精細的,使得測量是多個聚合物單元的函數。可以常規地操作STM或進行光譜測量 (STS)或以任何其它模式。
[0125] 替代類型的測量的一些實例包括但不限於電子測量和光學測量。J. Am. Chem. Soc. 2009, 1311652-1653披露了一種適宜的光學方法,其涉及螢光的測量。可能的電子 測量包括:電流測量、阻抗測量、隧道效應測量(例如如披露於Ivanov AP et al.,Nano Lett. 2011Janl2 ;11 (1) :279-85)、以及 FET 測量(例如如披露於國際申請 TO2005/124888 中)。光學測量可以與電子測量(Soni GV et al.,Rev Sci Instrum. 2010Jan ;81(1) :014301) 結合。測量可以是跨膜電流測量如通過納米孔的離子電流的測量。離子電流通常可以是DC 離子電流,雖然原則上一種替代方法是使用AC電流(即,在施加 AC電壓下,流過的AC電流 的幅值)。
[0126] 在本文中,術語'k聚體'是指k個聚合物單元的組,其中k是正整數,包括k是1 的情況,其中k聚體是單個聚合物單元。在一些情況下,提及k聚體,其中k是復整數,是k 聚體的亞組,一般來說不包括k是1的情況。
[0127] 雖然理想地,藉助於許多典型的測量系統,測量將取決於單個聚合物單元,但其中 k是復整數的情況下測量取決於聚合物的k聚體。即,在其中k是復整數的情況下,每個測 量取決於k聚體中的每個聚合物單元的序列。通常,測量具有這樣的特性,其與在聚合物和 測量系統之間的相互作用相關。
[0128] 在本發明的一些實施方式中,優選使用這樣的測量,其取決於聚合物單元的小組, 例如聚合物單元的雙聯體或三聯體(即,其中k = 2或k = 3)。在其它實施方式中,優選使 用這樣的測量,其取決於聚合物單元的較大組,即,具有"寬"解析度。這樣的寬解析度特別 可用於檢查均聚物區。
[0129] 尤其是,在測量取決於k聚體(其中k是復整數)的情況下,期望的是,對於盡可 能多的可能的k聚體,測量是可分辨的(即分離的)。通常,如果由不同k聚體產生的測量 很好分布於測量範圍和/或具有窄分布,這可以實現。通過不同的測量系統,這可以在不同 程度上實現。然而,本發明的獨特優勢在於,由不同k聚體產生的測量是可分辨的不是必不 可少的。
[0130] 圖1示意性地說明測量系統8的實例,該系統包括納米孔,其是插入生物膜2如兩 親層中的生物孔1。使包含一系列聚合物單元4的聚合物3移位通過生物孔1,如箭頭所示。 聚合物3可以是多核苷酸,其中聚合物單元4是核苷酸。聚合物3與生物孔1的活性部分 5相互作用,從而引起電性能如跨膜電流依賴於生物孔1內的k聚體而變化。在此實例中, 活性部分5被示為與三個聚合物單元4的k聚體相互作用,但這不是限制性的。
[0131] 布置在生物膜2的每側上的電極6連接於電路7,其包括控制電路71和測量電路 72〇
[0132] 控制電路71被設置成將電壓提供到電極6,用於跨越生物孔1進行施加。
[0133] 測量電路72被設置成測量電性能。因此,測量取決於在生物孔1內的k聚體。
[0134] 由測量系統輸出並且其是根據本發明加以分析的輸入信號的典型類型的信號是 "噪聲階梯波",雖然不限於這種信號類型。具有這種形式的輸入信號的實例示於圖2中,其 用於利用包括納米孔的測量系統獲得的離子電流測量的情況。
[0135] 這種類型的輸入信號包括測量的輸入系列,其中連續的多個測量的組取決於相同 的k聚體。在每組中的多個測量具有恆定值,並經受下文所討論的一些變化,因而形成信 號的"水平",其對應於測量系統的狀態。上述信號在一組水平(其可以是較大組)之間移 動。鑑於儀表的採樣速率和在信號上的噪聲,可以認為在水平之間的過渡是瞬間的,因此可 以通過理想化的步跟蹤來近似信號。
[0136] 對應於每個狀態的測量在事件的時間範圍內是恆定的,但對於大多數測量系統而 言將在短時間範圍內經受變化。變化可能起因於測量噪聲,例如產生自電路和信號處理, 尤其是在電生理學的特定情況下產生自放大器。由於待測量的性能的較小幅度,上述測量 噪聲是不可避免的。變化也可以來自在測量系統的基本物理或生物系統中的內在變化或擴 散。大多數測量系統將在更大或更小程度上經歷上述內在變化。對於任何給定測量系統, 兩種變化源均可以起作用,或這些噪聲源的一種可以是佔主導地位的。
[0137] 另外,通常沒有在組中測量的數目的先驗知識,其不可預測地變化。
[0138] 上述兩種變化因素以及測量的數目的知識的缺乏可以使得難以區分一些組,例如 在組較短和/或兩個連續組的測量的水平彼此接近的情況下。
[0139] 由於在測量系統中發生的物理或生物過程的結果,信號採用這種形式。因此,每組 測量可以被稱為"狀態"。
[0140] 例如,在包括納米孔的一些測量系統中,由聚合物通過納米孔的移位組成的事件 可以以棘輪方式發生。在棘輪移動的每個步驟期間,在跨越納米孔的給定電壓下,流過納米 孔的離子電流是恆定的,並經受上述討論的變化。因此,每組測量與棘輪移動的步驟相關。 每個步驟對應於一種狀態,其中聚合物處於相對於納米孔的相應位置。雖然在狀態期間過 程中,在精確位置方面,可以存在一些變化,但在狀態之間存在聚合物的大規模移動。取決 於測量系統的特性,由於在納米孔中結合事件的結果,狀態可以發生。
[0141] 單個狀態的持續時間可以取決於許多因素,如跨越孔施加的電位,用來對聚合物 作棘輪的酶的類型,而不管聚合物通過存在的酶、pH、鹽濃度和三磷酸核苷的類型被推動或 拉動通過孔。狀態的持續時間可能會通常在0. 5ms至3s之間變化,其取決於測量系統,以 及對於任何給定納米孔系統,具有在狀態之間的一些隨機變化。對於任何給定測量系統,可 以實驗確定持續時間的預期分布。
[0142] 上述方法可以使用多個測量的輸入系列,各自採用上文描述的形式,其中在每個 系列中多個測量的連續組取決於相同的k聚體。可以記錄上述多個系列使得先驗已知的 是,來自相應系列的哪些測量對應和取決於相同的k聚體,例如如果同時獲取每個系列的 測量。這可能是這種情況,例如,如果測量具有由不同測量系統同步測得的不同性能。可替 換地,可以不記錄上述多個系列,使得不是先驗已知的是,來自相應系列的哪些測量對應和 取決於相同的k聚體。這可能是這種情況,例如,如果在不同的時間進行測量系列。
[0143] 根據下文討論的第三方面的方法,其中在跨越納米孔施加不同水平的電壓下進行 測量,提供了關於每個水平的電壓的一系列測量。在這種情況下,考慮到用於談及的測量系 統的狀態的循環周期,來選擇測量的循環周期。理想地,循環周期短於所有狀態的持續時 間,其是通過選擇短於測量系統的最小預期循環周期的循環周期來實現。然而,有用的信息 可以獲自在短於僅僅一些狀態的持續時間的循環周期期間進行的測量,例如短於狀態的持 續時間的平均60 %、70 %、80 %、90 %、95 %、或99 %。通常,循環周期可以是至多3s,更通常 至多2s或至多Is。通常,循環周期可以是至少0. 5ms,更通常至少lms或至少2ms。
[0144] 對於狀態的持續時間,可以施加多於一個的電壓循環,例如2至10個之間的數目。
[0145] 關於每種k聚體,可以在一種電壓水平下進行多個測量(或在多個電壓水平的每 個下進行多個測量)。在一種可能的方式中,可以各自連續施加不同水平的電壓一時間段, 例如當電壓波形是階梯波時,以及在相應的時期期間中,在上述期間內施加的一種電壓下 進行多個測量的組。
[0146] 多個測量本身可以用於隨後的分析。可替換地,在所述(或每個)電壓水平的一 個或多個匯總測量可以源自每個多個測量的組。一個或多個匯總測量可以源自在任何給定 電壓水平下關於任何給定k聚體以任何方式的多個測量,例如作為平均值或中值,或作為 統計變化的度量,例如標準偏差。然後一個或多個匯總測量可以用於隨後的分析。
[0147] 電壓循環可以選自許多不同波形。波形可以是非對稱、對稱、規則或不規則的。
[0148] 在循環的一個實例中,可以各自連續施加不同水平的電壓一時間段,即循環的部 分期間,具有在那些不同水平之間的過渡,例如矩形波或階梯波。在電壓水平之間的過渡可 以是尖銳的或可以是在一時間段內斜線上升的(ramped)。
[0149] 在循環的另一個實例中,電壓水平可以連續變化,例如在不同水平之間是斜線上 升的,例如三角形或鋸齒波。在這種情況下,可以通過在循環內對應於所期望的電壓水平的 時間進行測量來進行在不同水平下的測量。
[0150] 信息可以源自在電壓坪區(voltage plateau)下的測量或源自斜率的測量。除在 不同電壓水平下進行的測量之外,可以導出進一步的信息,例如通過測量在一個電壓水平 和另一個電壓水平之間的瞬態形狀。
[0151] 在階梯電壓方案中,在電壓水平之間的過渡可以被成形,使得最小化任何電容瞬 態(capacitive transients)。考慮納米孔系統作為簡單的RC電路,電流,I,由下式給出, I =V/R+CdV/dt,其中V是施加電位,R是電阻(通常為孔的電阻),t是時間以及C是電容 (通常為雙層的電容)。在此模型系統中,在兩個電壓水平之間的過渡將遵循時間常數的指 數,τ =RC,其中 V = V2-(V2-Vl)*exp(_t/T)。
[0152] 圖52a和52b示出這樣的情況,其中選擇在電壓水平之間過渡的時間常數τ,以致 過渡速度太快和太慢地被優化。在電壓過渡太快的情況下,在測得的電流信號中看到尖峰 信號(過衝),而在太慢的情況下,則測得的信號並不足夠快速地變平(下衝)。在過渡速 度被優化的情況下,測得的電流從理想的尖銳過渡變形的時間被最小化。可以根據測量測 量系統的電性能,或根據測試不同的過渡,來確定過渡的時間常數τ。
[0153] 可以在兩種或更多種電壓水平下進行測量。選擇電壓水平,以致在每個電壓水平 下的測量提供關於決定測量的k聚體的同一性的信息。因此,水平的選擇取決於測量系統 的特性。跨越納米孔施加的電位差的程度將取決於許多因素如兩親層的穩定性、所使用的 酶的類型以及所期望的移位速度。通常,每個水平的電壓將具有相同的極性,雖然一般來 說,一個或多個水平的電壓可以具有與其它電壓相反的極性。一般來說,對於大多數納米孔 系統,每個水平的電壓可以通常是10mV至2V之間(相對於接地)。因此,在電壓水平之間 的電壓差可以通常是至少10mV,更優選至少20mV。在電壓水平之間的電壓差可以通常是至 多1. 5V,更通常至多400mV。較大電壓差傾向於在電壓水平之間產生電流的較大差異,因此 潛在地在相應的狀態之間產生較大區別。然而,高電壓水平可以在系統中產生例如更多噪 聲或導致通過酶的移位的破壞。相反地,較小電壓差傾向於產生電流的較小差異。可以選 擇最佳電位差,其取決於實驗條件或酶棘輪的類型。
[0154] 在一種電壓水平下測得的k聚體可以不一定是如在不同電壓水平下測得的相同 的k聚體。在不同電位下測得的k聚體之間,k值可以不同。如果是這種情況,然而有可能, 將存在這樣的聚合物單元,其是在不同電壓水平下測得的每種k聚體所共同的。不被理論 所限制,認為,待測量的k聚體的任何差異可能是由於在納米孔內在跨越納米孔施加的較 高電位差下聚合物的構象變化引起的,從而導致通過讀取頭測得的聚合物單元的數目的變 化。這種構象變化的程度可能取決於在一個值和另一個值之間電位的差異。
[0155] 可以存在其它可獲得的信息,作為測量的一部分,或來自另外的來源,其提供註冊 信息。上述其它信息可以使得能夠確定狀態。
[0156] 可替換地,信號可以採取任意形式。在這些情況下,還可以依據一組發射和過渡來 描述對應於k聚體的測量。例如,取決於特定k聚體的測量可以包括以適合於通過這些方 法的描述的方式發生的一系列測量。
[0157] 可以實驗檢查給定測量系統提供取決於k聚體和k聚體的尺寸的測量的程度。例 如,可以合成已知的聚合物並保持在相對於測量系統的預定位置,以根據得到的測量來研 究測量如何取決於與測量系統相互作用的k聚體的同一性。
[0158] 一種可能的方式是使用一組聚合物,除在預定位置(其對於組中的每種聚合物是 不同的)處的k聚體之外,其還具有相同序列。可以變化k聚體的尺寸和同一性以研究對 測量的影響。
[0159] 另一種可能的方式是使用一組聚合物,其中,在預定位置處,所研究的在k聚體 外部的聚合物單元對於組的每種聚合物是不同的。作為上述方式的實例,圖3是在包括 納米孔的測量系統中兩種多核苷酸的電流測量的頻率分布。在多核苷酸的一種(標記 多T)中,在納米孔的區中的每個鹼基是T(標記多T),以及在多核苷酸的另一種(標記 N11-TATGAT-N8)中,特定固定6聚體(具有序列TATGAT)左邊的11個鹼基和右邊的8個鹼 基被允許變化。圖3的實例示出,依據電流測量,兩種鏈的極好的分離。通過N11-TATGAT-N8 鏈看到的數值範圍也僅比通過多Τ看到的數值範圍稍寬。以這種方式和測量還具有其它序 列的聚合物,可以確定,對於談及的特定測量系統,以良好的近似,測量取決於6聚體。
[0160] 這種方式、或類似方式,可以通用於任何測量系統,其使得能夠確定位置和最小k 聚體描述。
[0161] 概率框架,尤其是在不同條件下或通過不同的檢測方法來施加多個測量的技術可 以使得能夠使用聚合物的較低k描述。例如在下文討論的有義和反義DNA測量的情況下,3 聚體描述可以足以確定基本聚合物k聚體,其中每個k聚體測量的更準確的描述將是6聚 體。類似地,在多個電位下進行測量的情況下,其中k具有較低值的k聚體描述,可以足以 確定基本聚合物k聚體,其中每個k聚體測量的更準確的描述將是一個k聚體或多個k聚 體,其中k具有較高值。
[0162] 在一般的測量系統中,類似方法可以用來確定良好近似k聚體的位置和寬度。在 圖3的實例中,這是通過改變6聚體相對於孔的位置(例如,通過改變以前和以後N的數 目)來實現,以檢測最佳逼近k聚體的位置以及增加和減少來自6的固定鹼基的數目。k值 可以最少經受足夠窄的值的擴散。可以選擇k聚體的位置以最小化峰寬度。
[0163] 對於典型的測量系統,通常的情況是,取決於不同k聚體的測量並不都是獨特地 可分辨的。例如,在圖3相關的測量系統中,可以觀察到,由具有固定6聚體的DNA鏈產生的 測量的範圍是大約2pA以及此系統的近似的測量範圍是30pA至70pA之間。對於6聚體, 存在4096種可能的k聚體。鑑於它們的每一種具有2pA的類似變化,很顯然,在40pA測量 範圍中,這些信號將不會是獨特可分辨的。甚至在一些k聚體的測量是可分辨的情況下,通 常被觀察到,許多其它k聚體的測量不是可分辨的。
[0164] 對於許多實際測量系統,不可能確定變換k個測量的函數,其各自部分地取決於 相同的聚合物單元,來獲得在聚合物單元的水平下被解析的單值,或者更一般地,不能通過 小於k聚體的數目的一組參數來描述k聚體測量。
[0165] 通過舉例的方式,現在將證明,對於包括納米孔的特定測量系統,通過簡單的一階 線性模型並不能準確地描述實驗得到的多核苷酸的離子電流測量。對於在下文更詳細描述 的兩個訓練組,這得到說明。用於此證明的簡單的一階線性模型是:
[0166] 電流=總和[fn(Bn)]+E
[0167] 其中,fn是在測量系統中在每個位置η處發生的每個鹼基Bn的係數以及E表示 起因於實驗可變性的隨機誤差。通過最小二乘法,將數據擬合於此模型,雖然可替換地可以 使用在本領域中已知的許多方法的任何一種。圖4和5是相對於電流測量的最好的模型擬 合的圖。如果通過此模型,數據得到充分描述,那麼點應在典型的實驗誤差(例如2pA)內 緊密遵循對角線。這不是這種情況,其表明,通過用於係數的任何組的這種線性模型,數據 沒有得到充分描述。
[0168] 現在將描述分析輸入信號(其是噪聲階梯波)的具體方法,其具體實施本發明的 第一方面。以下方法涉及測量取決於k聚體的情況,其中k是2或更大,但相同方法可以以 簡化形式應用於取決於k聚體(其中k是1)的測量。
[0169] 上述方法示於圖6中並且可以用示意性地示於圖6中的分析單元10來實施。分 析單元10接收和分析輸入信號,其包括來自測量電路72的測量。因而連接分析單元10和 測量系統8,並且共同構成用於分析聚合物的設備。分析單元10還可以將控制信號提供到 控制電路7以選擇在測量系統8中跨越生物孔1施加的電壓,並可以按照施加電壓來分析 來自測量電路72的測量。
[0170] 可以布置包括分析單兀10和測量系統8的設備,如披露於以下任何之一: TO-2008/102210、TO-2009/07734、TO-2010/122293 和 / 或 W0-2011/067559。
[0171] 分析單元10可以通過在計算機設備中執行的電腦程式來實施或可以通過專用 硬體裝置、或它們的任何組合來實施。在任何一種情況下,由上述方法使用的數據被存儲在 分析單元10的存儲器中。計算機設備,在使用的情況下,可以是任何類型的計算機系統,但 通常具有常規結構。可以用任何適宜的程式語言來寫電腦程式。可以將電腦程式存儲 於計算機可讀存儲介質中,上述計算機可讀存儲介質可以具有任何類型,例如:記錄介質, 其可插入計算系統的驅動器以及其可以以磁、光或光磁方式來存儲信息;計算機系統的固 定記錄介質如硬碟驅動器;或計算機存儲器。
[0172] 對輸入信號11進行上述方法,上述輸入信號包含上文描述類型的一系列測量(或 者更一般地,任何數目的系列,如下文進一步描述的),包括取決於相同k聚體的多個測量 的連續組,而沒有在任何組中測量的數目的先驗知識。這樣的輸入信號11的實例示於圖 2 (如先前所描述的)。
[0173] 在狀態檢測步驟S1中,處理輸入信號11以確定測量的連續組和導出測量系列12, 其由關於每個確定組的預定數目(是一個或多個)的測量組成。對由此導出的測量系列12 進行分析步驟S2。狀態檢測步驟S1的目的是將輸入信號減少到預定數目的與每個k聚體 狀態相關的測量,以簡化分析步驟S2。例如噪聲階梯波信號,如圖2所示,可以被減少到這 樣的狀態,其中與每個狀態相關的單個測量可以是平均電流。這種狀態可以被稱為水平。
[0174] 可以利用查找輸入信號11的衍生物中的短期增加的圖7所示的方法,來進行狀態 檢測步驟S1,具體如下。
[0175] 在步驟S1-1中,區分輸入信號11以導出它的衍生物。
[0176] 在步驟S1-2中,來自步驟S1-1的衍生物經受低通濾波以抑制高頻噪聲(分化傾 向於放大)。
[0177] 在步驟S1-3中,來自步驟S1-2的濾波衍生物被閾值化以檢測在測量的組之間的 過渡點(轉變點),從而確定數據的組。
[0178] 在步驟S1-4中,預定數目的測量來源於在步驟S1-3中確定的每組中的輸入信號 11。在最簡單的方法中,導出單個測量,例如作為在每個確定組中測量的平均值、中值、或位 置的其它度量。從步驟S1-4輸出的測量形成測量系列12。在其它方法中,導出關於每組的 多個測量。
[0179] 這種技術的常見簡化是使用滑動窗口分析,據此,比較兩個相鄰窗口的數據的平 均值。然後可以基於平均差異來直接設定閾值,或可以基於在兩個窗口中數據點的方差 (例如,通過計算史蒂特氏t統計量)來設定閾值。這些方法的獨特優勢在於,可以應用它 們,而沒有施加關於數據的許多假設。
[0180] 可以存儲與測得水平相關的其它信息,用於以後的分析。這樣的信息可以包括但 不限於:信號的變化;不對稱信息;觀察的置信度;組的長度。
[0181] 通過舉例的方式,圖9示出通過移動窗口 t檢驗而減小的實驗確定的輸入信號11。 尤其是,圖9示出輸入信號11作為淺色線。在狀態檢測以後的水平被示為重疊的,作為暗 色線。圖10示出針對整個譜圖導出的測量系列12,依據在過渡之間的平均值來計算每個狀 態的水平。
[0182] 然而,如在下文更詳細描述的,狀態檢測步驟S1是可選的,並且在下文進一步描 述的替代方案中,可以被省略。在這種情況下,如由圖6中的虛線示意性地所示,對輸入信 號11本身進行分析步驟S2,代替測量系列12。
[0183] 現將描述分析步驟S2。
[0184] 分析步驟S2使用一種分析技術,其是指存儲在分析單元10中的模型13。分析步 驟S2估計在聚合物中聚合物單元的估計序列16,其基於通過由聚合物單元的序列產生的 測量系列12的模型13預測的似然。在最簡單的情況下,估計序列16可以是下述表示,其 為每個聚合物單元提供單個估計同一性。更一般地,估計序列16可以是按照一定最優性準 則的聚合物單元的序列的任何表示。例如,估計序列16可以包含多個序列,例如包括在部 分或所有的聚合物中一個或多個聚合物單元的多個估計同一性。
[0185] 現將考慮模型13的數學基礎。分析步驟S2還提供下文進一步描述的質量得分 17。
[0186] 在從其對電流採樣的隨機變量{Xi,X2, "·,Χη}的序列之間的關係可以通過簡單的 圖形模型Α來表示,其表示在變量之間的條件獨立性關係:
[0187] X「X2_X3_ …-Xn
[0188] 每個電流測量取決於被讀的k聚體,所以存在隨機變量以,S2,…,SJ的基本組, 其表示k聚體的基本序列以及藉助於相應的圖形模型B :
[0189] "^r ill i Q Q Q Q * * *~
[0190] 應用於施加的電流區的這些模型利用了馬爾可夫(Markov)性能。在模型A中,如 果f(Xi)用來表示隨機變量Xi的概率密度函數,那麼馬爾可夫性能可以被表示為:
[0191] f(Xffl|Xffl_1) = f(Xffl|X1,X2,...,Xffl_ 1)
[0192] 在模型B中,馬爾可夫性能可以被表示為: _] p(Sffl|Sffl_1) =P(Sj
[0194] 精確地取決於如何編碼問題,用於解的自然的方法可以包括貝葉斯網絡、馬爾可 夫隨機場、隱馬爾可夫模型,並且還包括這些模型的變型,例如上述模型的有條件或最大熵 公式。在這些稍微不同的框架內,解的方法經常是類似的。通常,模型13包括過渡權重14, 其表示從起源k聚體到目標k聚體的過渡的機會;以及關於每種k聚體的發射權重15,其 表示觀測k聚體的測量的給定值的機會。在模型13是隱馬爾可夫模型的情況下,現將進行 說明。
[0195] 在圖形模型B中,在本文給出的設置中,隱馬爾可夫模型(HMM)是自然表示。在 HMM中,在離散隨機變量S"^P Sm+1之間的關係是依據過渡權重14的躍遷矩陣加以定義,其 在這種情況下是概率,該概率表示在每個隨機變量可以採取的可能的狀態之間的過渡的概 率,即從起源k聚體到目標k聚體。例如,常規地,躍遷矩陣的第(i,j)個元(entry)是過 渡權重14,其表示概率S m+1 = sm+u,鑑於Sm = SnU,即過渡到Sm+1的第j個可能的值的概率, 鑑於sm呈現它的第i個可能的值。
[0196] 圖11是Sm到Sm+1的躍遷矩陣的圖形表示。在這裡,為便於說明,S m和Sm+1僅顯示 4個值,但在現實中將存在和不同k聚體一樣多的狀態。每個邊表示過渡,並且可以被標記 有來自躍遷矩陣的元,其表示過渡概率。在圖11中,連接在S m層至Sm+1層中的每個節點的 四條邊的過渡概率將經典地共計為1,雖然可以使用非概率權重。
[0197] 一般來說,期望的是,過渡權重14包含非二進位變量的值(非二進位值)。這允許 模型13表示在k聚體之間過渡的實際概率。
[0198] 考慮到模型13表示k聚體,所以任何給定k聚體具有k個優選過渡,從起源k聚 體過渡到目標k聚體,其具有這樣的序列,其中第一(k-Ι)聚合物單元是起源k聚體的最後 (k-ι)聚合物單元。例如在多核苷酸由4種核苷酸G、T、A和C組成的情況下,起源3聚體 TAC具有到3聚體ACA、ACC、ACT和ACG的優選過渡。對於第一近似,從概念上講,可以認為, 4種優選過渡的過渡概率是相等的,為(0. 25),以及其它非優選過渡的過渡概率是零,非優 選過渡是從起源k聚體過渡到目標k聚體,其具有不同於起源k聚體以及其中第一(k-1) 聚合物單元不是起源k聚體的最後(k-1)聚合物單元的序列。然而,雖然這種近似有利於 理解,但一般來說,過渡的實際機會可以從在任何給定測量系統中的這種近似進行變化。這 可以由過渡權重14反映,其採用非二進位變量的值(非二進位值)。可以表示的上述變化 的一些實例如下。
[0199] 一個實例是,優選過渡的過渡概率可能不是相等的。這允許模型13表示聚合物, 其中在序列中的聚合物之間存在相互關係。
[0200] 一個實例是,至少一些非優選過渡的過渡概率可能是非零。這允許模型13考慮到 錯過的測量,即其中不存在這樣的測量,其取決於在實際聚合物中的一種(或多種)k聚體。 上述錯過的測量可以發生:由於在測量系統中的問題,以致測量不是物理上採取的,或由於 在隨後的數據分析中的問題,如狀態檢測步驟S1未能確定測量的組之一,例如由於給定組 太短或兩個組並不具有足夠分離的水平。
[0201] 儘管允許過渡權重14具有任何值的一般性,但通常它將是這種情況,過渡權重14 表示從起源k聚體到目標k聚體的優選過渡的非零機會,上述目標k聚體具有這樣的序列, 其中第一(k-Ι)聚合物單元是起源k聚體的最後(k-Ι)聚合物單元,以及表示非優選過渡 的較低機會。還通常地,過渡權重14表示至少一些所述非優選過渡的非零機會,即使機會 可以接近零,或對於一些被絕對排除的過渡可以是零。
[0202] 為了允許在序列中單個錯過的k聚體,過渡權重14可以表示從起源k聚體到目標 k聚體的非優選過渡的非零機會,上述目標k聚體具有這樣的序列,其中第一(k-2)聚合物 單元是起源k聚體的最後(k-2)聚合物單元。例如,在多核苷酸由4種核苷酸組成的情況 下,對於起源3聚體TAC,存在到所有可能的開始於C的3聚體的過渡。我們可以將對應於 這些單個錯過的k聚體的過渡定義為"跳過"。
[0203] 在分析包含關於每種k聚體的單個測量的測量系列12的情況下,那麼過渡權重14 將表示對於每個測量12的過渡的高機會。取決於測量的特性,從起源k聚體過渡到與起源 k聚體相同的目標k聚體的機會可以是零或接近於零,或可以類似於非優選過渡的機會。
[0204] 類似地,在分析包含預定數目的關於每種k聚體的測量的測量系列12的情況下, 那麼過渡權重14可以表示在關於相同的k聚體的測量12之間過渡的低或零機會。可以改 變過渡權重14以允許起源k聚體和目標k聚體是相同的k聚體。這允許,例如,錯誤地檢 測到的狀態過渡。我們可以將對應於這些重複相同的k聚體的過渡定義為"停留"。我們注 意到,在k聚體中的所有聚合物單元是相同的均聚物的情況下,優選過渡將是停留過渡。在 這些情況下,聚合物已移動一個位置,但k聚體保持相同的。
[0205] 類似地,在萬一分析測量系列12 (其中通常存在關於每種k聚體但具有未知量的 多個測量(其可以被稱為"粘著"的情況下,過渡權重14可以表示起源k聚體和目標k 聚體是相同k聚體的相對較高概率,以及取決於物理系統,在一些情況下,可以大於如上所 述的優選過渡的概率,上述優選過渡是從起源k聚體到目標k聚體的過渡,其中第一(k-1) 聚合物單元與起源k聚體的最後(k-1)聚合物單元相同。
[0206] 此外,在分析輸入信號11而沒有利用狀態檢測步驟S1的情況下,那麼這可以簡單 地通過使過渡權重14適應於表示起源k聚體和目標k聚體是相同k聚體的相對較高概率 來實現。這基本上允許進行相同的分析步驟S2,其中模型13的適應隱式地考慮到狀態檢 測。
[0207] 與每個k聚體相關,存在發射權重15,其表示觀測k聚體的測量的給定值的概率。 因此,對於由圖11中的節點S m;i表示的k聚體狀態,發射權重15可以被表示為概率密度函 數g (Xm | SnU),其描述從其採樣電流測量的分布。期望的是,發射權重15包含非二進位變量 的值。這允許模型13表示不同電流測量的概率,一般來說,其可能不具有簡單的二進位形 式。
[0208] 在狀態檢測步驟S1導出由關於每個確定組(例如平均值和方差)的多個測量組 成的測量系列12的情況下,發射權重15表示觀測k聚體的每種類型的測量的給定值的概 率。類似地,在更一般情況下,即對多個測量系列12進行上述方法,上述多個測量系列被記 錄以致先驗已知的是,來自相應系列的哪些測量對應和取決於相同的k聚體,則發射權重 15再次表示觀測k聚體的每個系列的測量的給定值的概率。在這些情況下,可以應用模型 13,其中利用發射權重15作為在多個維度上的概率密度函數,其描述對於每個k聚體狀態 的多個測量的分布。一般來說,用於任何給定k聚體的發射權重15可以採用任何形式,其 反映測量的概率。在單個模型13內,並不需要不同k聚體具有有相同發射分布形式或參數 化的發射權重15。
[0209] 對於許多測量系統,k聚體的測量具有特定預期值,其可以是擴散的,這起因於待 測量的物理或生物特性的擴散和/或測量誤差。這可以用模型13來建模,其中通過使用發 射權重15,其具有適宜的分布,例如單峰分布。
[0210] 然而,對於一些測量系統,用於任何給定k聚體的發射權重15可以是多峰的,例如 物理上產生自在測量系統中兩種不同類型的結合和/或產生自在測量系統內採用多種構 象的k聚體。
[0211] 有利地,發射權重15可以表示觀測所有可能的測量的非零機會。這允許模型13 考慮到由給定k聚體產生的未預期測量,其是離群值。例如,可以在允許具有非零概率的離 群值的廣泛的支持下選擇發射權重15概率密度函數。例如在單峰分布的情況下,對於每個 k聚體的發射權重15可以具有高斯或拉普拉斯分布,其對於所有實數具有非零權重。
[0212] 可以是有利的是,允許發射權重15是任意定義的分布,以使得能夠精緻地處理離 群值測量和處理具有多值發射的單狀態的情況。
[0213] 可以期望根據經驗來確定發射權重15,例如在如下文所述的訓練期期間。
[0214] 可以藉助於跨越測量空間的任何適宜數目的二進位(bins)來表示發射權重15的 分布。例如,在下文描述的情況下,通過在數據範圍上的500個二進位來定義分布。可以通 過在所有二進位中具有非零概率(雖然在離群二進位中較低)和類似概率(如果數據並不 屬於定義二進位之一)來處理離群值測量。可以定義足夠數目的二進位以近似所期望的分 布。
[0215] 因此,獨特優勢可以源自使用表示至少一些所述非優選過渡的非零機會的過渡權 重14和/或使用表示觀測所有可能的測量的非零機會的發射權重15。獨特優勢還可以源 自使用對應於觀測給定k聚體的測量範圍的相對機會的發射權重。
[0216] 為了強調這些優點,作為比較例,考慮用於導出序列的簡單的非概率方法。在此比 較例中,不允許在觀測值的給定範圍以外產生測量的k聚體以及不允許對應於錯過的測量 的過渡(跳過),例如通過刪除邊和結點來減少圖11中過渡的數目。在上述比較例中,然後 搜索k聚體狀態的獨特的連接序列,其準確地包含用於每個Si的一個節點,以及對應於聚 合物單元的基本序列。然而,因為此比較例依靠任意閾值來確定不允許的結點和邊,所以在 跳過的測量的情況下它未能找到任何路徑,這是因為在圖中並不存在適當的邊。類似地,在 離群測量的情況下,上述比較例將導致在圖11中的相應節點被刪除,並再次變得不可能確 定通過該圖的正確路徑。
[0217] 相比之下,在分析步驟S2中使用模型13和分析技術如概率或加權方法的獨特優 勢在於,可以避免這種崩潰情況。另一個優點在於,在存在多個允許路徑的情況下,可以確 定最有可能的或一組可能的路徑。
[0218] 這種方法的另一獨特優勢涉及檢測均聚物,即相同的聚合物單元的序列。基於模 型的分析使得能夠處理這樣的均聚物區,其達到類似於有助於信號的聚合物單元的數目的 長度。例如6聚體測量可以確定長度可達6個聚合物單元的均聚物區。
[0219] 分析步驟S2的一種可能的形式示於圖8並且操作如下。
[0220] 在步驟S2-1中,參照模型13基於通過由k聚體的序列產生的測量系列12的模型 13所預測的似然,來估計k聚體的估計序列18。
[0221] 在步驟S2-2中,聚合物單元的估計序列16由在步驟S2-1中估計的k聚體的估計 序列18估計。
[0222] 在步驟S2-1和S2-2中,還提供了質量得分,其分別表示k聚體的估計序列18和 聚合物單元的估計序列16的質量,如下文進一步討論的。
[0223] 在分析步驟S2中應用的分析技術可以採用各種各樣的形式,其適用於模型13以 基於通過由聚合物單元的序列產生的測量系列12的模型13所預測的似然來提供在聚合物 中聚合物單元的估計序列16。例如在模型是HMM的情況下,在步驟S2-1中分析技術可以使 用任何已知的算法,例如前向後向(Forwards Backwards)算法或維特比(Viterbi)算法。 一般來說,這樣的算法可以避免通過狀態的序列的所有可能的路徑的似然(可能性)的蠻 力計算,而是利用基於似然的簡化的方法來確定狀態序列。
[0224] 在一個替代方案中,通過估計序列的單獨k聚體,或對於在序列中的每個k聚體的 多個k聚體估計,基於通過由單獨k聚體產生的測量系列的模型所預測的似然,步驟S2-1 可以確定k聚體的序列18。作為實例,在步驟S2-1中分析技術使用前向後向算法的情況 下,基於通過由單獨k聚體產生的測量系列的模型所預測的似然,分析技術估計k聚體的序 列18。前向-後向算法在本領域中是眾所周知的。對於前向部分:利用過渡和發射權重, 從第一至最後測量,向前遞歸地計算結束於給定k聚體的所有序列的總似然。後向部分以 類似的方式進行工作但從最後測量至第一測量。結合這些前向和後向概率以及連同數據的 總似然一起來計算來自給定k聚體的每個測量的概率。
[0225] 根據前向-後向概率,導出在序列18中每個k聚體的估計。這是基於與每個單獨 k聚體相關的似然。一種簡單的方法是在每個測量中獲得最有可能的k聚體,這是因為前 向-後向概率表明在每個測量中k聚體的相對似然。
[0226] 在步驟S2-1中,還導出關於序列18中的單獨k聚體的質量得分,其表示通過由包 括單獨k聚體的序列產生的測量系列12的模型13所預測的似然。這可以獲自在步驟S2-1 中進行的分析,並提供另外的有用的信息。
[0227] 在另一種替代方案中,基於通過由k聚體的整個序列產生的測量系列的模型所預 測的似然,通過估計整個序列、或多個整個序列,步驟S2-1可以確定k聚體的序列18。作為 另一實例,在步驟S2-1中分析技術使用維特比算法的情況下,基於通過由k聚體的整個序 列產生的測量系列的模型所預測的似然,分析技術估計k聚體的序列18。維特比算法在本 領域中是眾所周知的。
[0228] 在步驟S2-1中,還導出關於在序列18中單獨k聚體的質量得分,其表示通過由k 聚體的整個序列產生的測量系列12的模型13所預測的似然。這可以獲自在步驟S2-1中 進行的分析,並提供另外的有用的信息。
[0229] 作為另一種替代方案,可以將步驟S2-1分為兩個階段,包括:第一階段:基於通過 由k聚體的整個序列產生的測量系列的模型所預測的似然,確定k聚體的整個序列;以及第 二階段:依據第一階段的結果,通過估計序列的單獨k聚體,或對於在序列中的每個k聚體 的多個k聚體估計,來確定k聚體的序列18。作為實例,這種替代方案可以使用蠻力計算。
[0230] 在步驟S2-2中,利用任何適宜的技術,由在步驟S2-1中估計的k聚體的估計序列 18估計聚合物單元的估計序列16。一種直接方法是以一對一關係使k聚體與聚合物單元 相關以及簡單地採取來自相關k聚體的單個聚合物單元。更複雜的方法利用來自在序列18 中包含每個給定的聚合物單元的估計k聚體的組的信息的組合來估計每個聚合物單元。例 如聚合物單元可以取自最有可能的那些估計k聚體。在步驟S2-1中,利用導出的關於估計 k聚體序列的質量得分17,可以估計每個聚合物單元。
[0231] 在步驟S2-2中,還導出關於在序列16中的每個聚合物單元的質量得分,其表示由 包括聚合物單元的序列產生的測量系列12的模型13所預測的似然。這可以獲自在步驟 S2-2中進行的分析,例如基於每個k聚體和相關的聚合物單元的相對概率,以及提供另外 的有用的信息。
[0232] 在分析步驟S2中的上述技術不是限制性的。存在許多方法來利用模型,其中利用 概率或其它分析技術。估計k聚體的整個序列、單獨k聚體或基本聚合物單元的過程可以針 對特定的應用設計。沒有必要進行任何"硬"k聚體序列、k聚體或聚合物單元調用(calls)。 可以考慮所有k聚體序列、或可能的k聚體序列的亞組。可以考慮k聚體或k聚體的組,其 與k聚體序列相關或被認為獨立於特定k聚體序列,例如相對於所有k聚體序列的加權和。 聚合物單元或聚合物單元的組與k聚體相關或被認為獨立於特定k聚體,例如相對於所有 k聚體的加權和,那些k聚體依賴於、或獨立於k聚體序列或k聚體序列的組。
[0233] 通過實例的方式,可以考慮3聚體多核苷酸系統。有幾種方法來導出一組可能的 鹼基估計。第一替代方案是考慮最有可能的路徑(維特比算法),導出與上述路徑相關的3 聚體狀態的組,以及使用來自k聚體的一個鹼基,例如中心鹼基,作為鹼基調用。第二替代 方案是考慮所有路徑以導出在每個點處最有可能的k聚體(前向-後向算法)。於是,來自 最有可能的k聚體的一個鹼基(例如中心鹼基)可以是鹼基估計。用來自k聚體導出鹼基 估計的另一種替代方案將是總和所有k聚體,其中考慮到鹼基之一(例如中心鹼基)的貢 獻並採用最有可能的鹼基作為估計。用來自k聚體導出鹼基估計的另一種替代方案將是總 和來自在所有k聚體中的所有位置的貢獻,以確定在每個位置處最有可能的估計。
[0234] 類似地,分析步驟S2可以估計k聚體的多個序列18和/或聚合物單元的多個序 列16。在這種情況下,可以存在導出的質量得分,其是關於k聚體的每個的多個序列18和 /或聚合物單元的每個的多個序列16。以這種方式,分析步驟S2提供關於可能性較小的序 列的信息,其仍然可以用於一些應用。
[0235] 給出的以上描述是依據模型13,其是HMM,其中過渡權重14和發射權重15是概 率,以及分析步驟S2使用其指的是模型13的概率技術。然而,可替換地可能的是,模型13 使用一種框架,其中過渡權重14和/或發射權重15不是概率,但以某種其它方式表示過渡 或測量的機會。在這種情況下,分析步驟S2可以使用分析技術而不是概率技術,其是基於 由聚合物單元的序列產生的測量系列的模型13所預測的似然。分析步驟S2使用的分析技 術可以明確使用似然函數,但一般來說這不是必需的。因此,在本發明的上下文中,術語"似 然"在一般意義上用於考慮到通過聚合物單元的序列產生的測量系列的機會,而無需計算 或利用正式似然函數。
[0236] 例如,可以用費用(或距離)來表示過渡權重14和/或發射權重15,其表示過渡 或發射的機會,但不是概率,所以例如不會被限於總和為1。在這種情況下,分析步驟S2可 以使用一種分析技術,其處理分析作為最小費用路徑或最小路徑問題,例如如在運籌學中 通常看到的分析。可以使用標準方法如迪科斯徹算法(Dijkstra's algorithm)(或其它更 有效的算法)。
[0237] 現將討論具體實例,其中模型13是HMM,其用來建模和分析來自鈍性讀出頭系統 的數據。在這裡,通過如先前描述的狀態檢測步驟S1來首先處理輸入數據11。為簡單起 見,但不是限制性地,這種具體實例涉及用於多核苷酸的3聚體模型,上述多核苷酸具有4 種可能的鹼基,以致存在64種可能的k聚體。介紹了一種模擬情況以能夠參照基本模型13 和狀態來說明關鍵點。
[0238] 在這種模擬情況下,隨機選擇3聚體電流水平,以致64種k聚體狀態的發射權重 15的最簡單的描述需要64個係數。通過如所描述的基於模型的分析來實現根據測量的k 聚體的基本序列的確定。
[0239] 圖12示出對於每個k聚體的最有可能的測量值。因此,這些值也是每個k聚體的 發射權重15的分布的中心值。在圖12中,按順序G、T、A、C,即狀態0 = "GGG"、狀態1 = "GGT"、...狀態62 = "CCA"、狀態63 = "CCC",來依次運行k聚體狀態指數。在分析期間 使用K聚體狀態指數,其中轉換回到"底空間(base space) "作為最後步驟。
[0240] 利用先前描述的係數來模擬來自給定序列的測量。例如序列ACTGTCAG是由3聚 體構成:ACT、CTG、TGT、GTC、TCA、CAG。它們對應於狀態指數45、52、17、7、30、56,其產生預 期測量:68. 5、46. 5、94. 9、51. 3、19. 5、52. 1。模擬測量示於圖13,作為輸入信號12,以及示 於圖14,作為通過狀態檢測步驟S1產生的測量系列12。
[0241] 在實踐中,進行的任何測量具有與它們相關的錯誤。在模擬情況下,這通過將噪聲 加入預期測量中而考慮。
[0242] 還存在失去測量或插入假陽性測量的機會。在如現將描述的躍遷矩陣中可以考慮 到這些。
[0243] 現將考慮用於模擬情況的過渡權重14的躍遷矩陣。
[0244] 鑑於測量系列12和發射權重15的組,分析步驟S2確定基本序列的估計。從概 念上講,這可以被認為是,分析步驟S2建模所有可能的過渡,相對於其,比較觀測到的序列 (雖然事實上分析步驟S2可以使用並不需要此的更有效的算法)。例如在所考慮的3聚體 的情況下,64種狀態的每一種具有到4種其它狀態的優選過渡。
[0245] 圖15示出用於模擬模型的過渡權重14的躍遷矩陣,其中用於優選過渡的過渡權 重14各自是0. 25以及用於非優選過渡的過渡權重14各自是零。例如,可以看到,起源狀 態0 (GGG)可以以相等概率過渡到狀態0 (GGG)、1 (GGT)、2 (GGA)或3 (GGC)。
[0246] 圖16示出用於模擬模型的過渡權重14的躍遷矩陣的更複雜的情況,上述模擬模 型由圖15的模擬模型改進,其中通過允許用於非優選過渡的非零過渡權重14,上述非優選 過渡表示錯過的測量,即其中過渡被跳過。一般說來,如需要建模基本測量系統時,躍遷矩 陣可以是任意複雜的。
[0247] 在操作測量系列12的情況下,其中我們已進行狀態檢測S1,遠離任何給定起源k 聚體的過渡概率通常較高,總之接近1。在圖15的第一實例中,躍遷矩陣需要過渡,除了在 4種均聚物情況下,其中優選"過渡"的一種是到相同的k聚體。從任何狀態的4種優選過 渡的每一種的概率是〇. 25。此矩陣不太可能能夠處理"真實世界"數據,除非進行其它適當 的減輕,例如在發射權重15中的離群值處理。
[0248] 然而,對於需要處理或有可能發生的任何情況,可以允許非零過渡。在圖16的第 二實例中,優選過渡的概率小於〇. 25,其中餘數由停留和跳過概率組成。以類似的方式,也 可以允許多個跳過,達到任意水平的複雜性。
[0249] 可以調節過渡概率以考慮到可以測量在k聚體之間的過渡的容易性。例如在來自 兩個連續k聚體的信號是非常接近在一起的情況下,狀態檢測步驟S1可以錯過此過渡。在 這種情況下,在這兩個k聚體之間的躍遷矩陣元素可以在跳過第二k聚體的方向被加權。
[0250] 可以調節矩陣以考慮到在給定樣品中的任何序列偏向。
[0251] 在上述實例中,將發射和過渡權重固定於恆定值,但這不是必需的。作為一種替代 方案,對於待分析的測量系列的不同部分,可以變化發射權重和/或過渡權重,也許由關於 過程的另外的信息所引導。作為實例,其具有作為"停留"的解釋的過渡權重的矩陣的元素 可以被調節,其取決於特定事件0反映聚合物的實際過渡的置信度。作為進一步的實例, 可以調節發射權重以反映測量裝置的背景噪聲的系統漂移或對施加電壓進行的變化。對權 重的調節的範圍並不限於這些實例。
[0252] 在上述實例中,存在每個k聚體的單一表示,但這不是必需的。作為一種替代方 案,模型可以具有一些或所有k聚體的多個不同的表示,以致關於任何給定k聚體,可以存 在多組的過渡和/或發射權重。這裡的過渡權重可以是在不同的起源和不同的目標k聚體 之間,所以每個起源-目標對可以具有多個權重,其取決於每個k聚體的不同表示的數目。 這些不同表示的許多可能的解釋中的一種是,k聚體被標記有標記,其指示不能直接觀測的 系統的某種行為,例如在移位通過納米孔期間聚合物可以採用的不同構象或移位行為的不 同動力學。
[0253] 對於操作於原始輸入信號11而沒有進行狀態檢測步驟S1的模型13,將上述方法 直接應用於輸入系列的測量,其中多個測量的組取決於相同的k聚體而沒有在組中測量的 數目的先驗知識。在這種情況下,可以應用非常類似的技術,但對模型13進行顯著調節,這 是因為,遠離任何給定起源k聚體狀態的過渡概率的總和現在遠小於1。例如,如果平均而 言,系統對相同的k聚體進行100次測量,則在躍遷矩陣中的對角線上的概率(表示沒有過 渡或這樣的過渡,其中起源k聚體和目標k聚體是相同的k聚體)將是0. 99,並在所有其它 優選和非優選過渡之間具有〇. 01分裂。優選過渡的組可以類似於那些用於狀態檢測情況 的組。
[0254] 考慮發射權重15,圖17至19示出用於模擬係數的發射分布,其分別是高斯、三角 和正方分布,雖然以這種方式可以定義任何任意分布(包括非參數分布)。
[0255] 為了表明,相對於噪聲,這些方法的穩健性,將噪聲擾動加入模擬測量中。在此實 例中,將採樣自標準偏差5pA的高斯分布的隨機噪聲加入圖12所示的預期k聚體測量中。
[0256] 圖20示出,相比於圖12所示的預期測量,模擬測量(測量系列12),其表明可以看 到的添加的噪聲是嚴重的。
[0257] 應用模型13,其中藉助於過渡權重的適當的躍遷矩陣,例如圖16所示的躍遷矩 陣,以及用於發射權重15的適當的分布,在這種情況下為高斯分布。前向-後向算法用作分 析技術來估計在測量系列中的每個點處的最有可能的k聚體。相對於已知的k聚體序列, 比較估計的k聚體調用,如圖21所示。可以看到,甚至在這種嚴重的情況下,也正確估計大 多數狀態。
[0258] 現說明,相對於與在序列中的k聚體相關的失去測量的穩健性。在這種情況下,模 擬測量的系列12,其中,除將噪聲加入預期k聚體測量之外(在此實例中,我們使用較不嚴 重的具有IpA標準偏差的噪聲的情況),還從數據隨機刪除k聚體測量,在這種情況下,具有 〇. 1的刪除概率。圖22示出相比於圖12所示的預期測量的模擬測量(測量系列12)。在 圖22中,可以看到失去的k聚體狀態(帶圓圈)。
[0259] 再一次,應用預期k聚體測量的模型13,藉助於過渡權重的適當的躍遷矩陣,在這 種情況下,藉助於圖15和16所示的躍遷矩陣,以及發射權重15的適當的分布,在這種情況 下為高斯分布。前向-後向算法用作分析技術來估計在測量系列12中的每個點處的最有 可能的k聚體。
[0260] 相對於已知的k聚體序列,比較估計的k聚體調用,如圖23和24分別針對圖15和 16的躍遷矩陣所示。在這裡,當相比於圖23時,在圖24中可以看到,正確稱為k聚體的數 目的改善,其中通過允許在模型過渡中的跳過。在存在由高置信度估計包圍的失去的k聚 體測量的情況下,失去的k聚體可以由周圍的k聚體估計。相比之下,對於不允許跳過的情 況,通過發射權重15來適應失去數據,上述發射權重具有並不達到零的分布,以便分析找 到通過k聚體的系列的路徑。在下一部分中進一步討論在發射分布中的非零背景。
[0261] 現說明,相對於與在序列中的給定k聚體相關的離群測量的穩健性。在關於失去 測量的先前說明中,其中過渡權重14並不允許跳過的狀態(S卩,具有圖15的躍遷矩陣),需 要使用具有並不達到零的分布的發射權重15,以便使分析能夠找到通過k聚體的序列的路 徑(雖然非常不可能的路徑)。在正方發射分布的簡單情況下,說明了對於所有測量具有非 零值的發射權重15的優點。此實例使用圖20所示的模擬測量系列12,其中添加標準偏差 為5pA的噪聲。
[0262] 再一次,在這種情況下應用預期k聚體測量的模型13,並藉助於過渡權重14的躍 遷矩陣,其中不允許非優選過渡,如圖15所示,以及藉助於用於發射權重15的兩種不同的 分布。前向-後向算法用作分析技術來估計在測量系列12中的每個點處的最有可能的k 聚體。
[0263] 在第一種情況下,發射權重15具有正方分布,其具有小的非零背景(在這種情況 下1χ1(Γ 1(ι),如圖25所示,對於其,相對於在圖26中的已知的k聚體序列,比較估計的k聚 體調用。
[0264] 在第二種情況下,發射權重15具有正方分布,其具有如圖27所示的零背景,對於 其,相對於在圖28中的已知的k聚體序列,比較估計的k聚體調用。
[0265] 在發射權重15的分布中具有零背景的第二種情況下,藉助於其中那些分布的 寬度太窄的發射分布,不存在通過k聚體序列的路徑。對於此實例,我們已使用寬度為 +/_14pA的發射分布,以致分析可以發現通過測量的路徑,如圖27所示。在這種情況下,不 是存在較少數目的路徑,各自具有高數目的正確狀態,而是存在大量的路徑,其包含許多不 正確稱為的狀態。用於此實例的一組k聚體調用示於圖28中。
[0266] 在第一種情況下,其中允許在背景中小的非零發射,如圖25所示,可以容忍更窄 的分布,從而使得能夠正確估計更高數目的k聚體狀態,如圖27所示,其提供比圖28更好 的結果。
[0267] 另外,此實例說明了概率方法的優點,其中通過比較正方分布情況與用於圖20和 21所示的實例的高斯發射,其提供比使用如圖27和28所示的正方分布更好的結果。
[0268] 現將討論模型13的訓練,其是對於給定測量系統的發射權重15的求導。
[0269] 相比於上述模擬,在真實的測量系統中,來自每個k聚體的單個測量是預先未知 的但可來自訓練集。一般說來,這涉及採取來自已知的聚合物的測量並利用訓練技術,其本 身常規用於HMM。
[0270] 在這些訓練方法中,可以開發特定類型的序列,其是deBruijn序列,該序列是對 於給定k包含所有k聚體的最小長度序列。deBruijn序列的使用是用來最小化所需要的實 驗數目的有效方式。
[0271] 對於用來測量多核苷酸的包括納米孔的測量系統,描述了兩種訓練方法。第一種 方法使用來自"靜態"DNA鏈的測量,通過生物素/鏈黴親和素系統,上述鏈被保持在納米孔 內的特定位置。第二種方法使用來自移位通過納米孔的DNA鏈的測量並估計或"訓練"系 數,其中通過利用類似於針對k聚體估計所描述的概率框架。
[0272] 如下進行第一靜態訓練方法。
[0273] 這些實驗涉及利用生物素分子並以與由Stoddart D et al.,Proc Natl Acad Sci,12 ; 106 (19) : 7702-7描述的那些方式類似的方式,將DNA鏈連接於鏈黴親和素"錨狀 物"。在此系統中,k值是3。利用在400mMKCl中的MS-(B2)8,DNA鍊表示k = 3deBruijn 序列(SeqID:3)。在施加電位下在納米孔中捕捉上述鏈並記錄電流。可以用一系列DNA鏈 來重複實驗,其中序列被一個核苷酸提前,如列於以下表中。以這種方式,獲得在特定施加 電位如180mV下的電流水平的測量,其對應於那些由移動鏈預期的結果,如列於以下表中。
[0274] Seq ID3 (k3De Bruijn):
[0275] ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT
[0276] 表 1 :
[0277]
【權利要求】
1. 一種由涉及聚合物的至少一個測量的系列來估計所述聚合物中的聚合物單元的序 列的方法,其中,每個測量的值取決於k聚體,所述k聚體是k個聚合物單元的組,其中k是 正整數,所述方法包括: 提供模型,對於一組可能的k聚體,所述模型包括: 過渡權重,所述過渡權重表示從起源k聚體到目標k聚體的過渡的機會,和 關於每個k聚體的發射權重,所述發射權重表示觀測該k聚體的測量的給定值的機會; 以及 利用參考所述模型的分析技術來分析所述測量的系列並且基於通過由聚合物單元的 序列產生的所述測量的系列的模型所預測的似然來估計所述聚合物中的聚合物單元的至 少一種估計的序列。
2. 根據權利要求1所述的方法,其中,所述過渡權重和所述發射權重中的至少一種包 含非二進位變量的值。
3. 根據權利要求2所述的方法,其中,所述過渡權重和所述發射權重中的兩者包含非 二進位變量的值。
4. 根據權利要求1至3中任一項所述的方法,其中,所述發射權重表示觀測所有可能的 測量的非零機會。
5. 根據權利要求1至4中任一項所述的方法,其中,關於每個k聚體的所述發射權重相 對於測量的值具有單峰或多峰分布。
6. 根據權利要求5所述的方法,其中,關於每個k聚體的所述發射權重相對於測量的值 具有高斯、拉普拉斯、正方或三角分布。
7. 根據權利要求1至6中任一項所述的方法,其中,k是復整數。
8. 根據權利要求7所述的方法,其中,所述過渡權重表示優選過渡的非零機會,所述優 選過渡是從起源k聚體到具有其中第一(k-Ι)聚合物單元是所述起源k聚體的最後(k-1) 聚合物單元的序列的目標k聚體的過渡,並且表示非優選過渡的較低機會,所述非優選過 渡是從起源k聚體到具有不同於所述起源k聚體並且其中所述第一(k-Ι)聚合物單元不是 所述起源k聚體的最後(k-Ι)聚合物單元的序列的目標k聚體的過渡。
9. 根據權利要求8所述的方法,其中,所述過渡權重表示至少一些所述非優選過渡的 非零機會。
10. 根據權利要求9所述的方法,其中,所述過渡權重表示從起源k聚體到具有其中第 一(k-2)聚合物單元是所述起源k聚體的最後(k-2)聚合物單元的序列的目標k聚體的非 優選過渡的非零機會。
11. 根據權利要求1至10中任一項所述的方法,其中,所述分析技術是概率技術。
12. 根據權利要求1至11中任一項所述的方法,其中,所述過渡權重是概率,和/或所 述發射權重是概率。
13. 根據權利要求1至12中任一項所述的方法,其中,所述模型是隱馬爾可夫模型。
14. 根據權利要求1至13中任一項所述的方法,其中,所述分析步驟進一步包括導出關 於所述估計序列或每個估計序列的質量得分,所述質量得分表示通過由聚合物單元的估計 序列產生的測量的系列的模型預測的似然。
15. 根據權利要求1至14中任一項所述的方法,其中,所述分析步驟進一步包括導出關 於對應於聚合物單元的估計序列的單獨k聚體的質量得分,所述質量得分表示通過由包括 所述單獨k聚體的序列產生的測量的系列的模型所預測的似然。
16. 根據權利要求1至15中任一項所述的方法,其中,所述分析步驟進一步包括導出 關於對應於聚合物單元的估計序列的k聚體的序列的質量得分,所述質量得分表示通過由 k聚體的給定序列產生的測量的系列的模型所預測的似然。
17. 根據權利要求1至16中任一項所述的方法,其中,所述分析步驟導出在所述聚合物 中的聚合物單元的多個估計序列。
18. 根據權利要求1至17中任一項所述的方法,其中,估計所述聚合物中的聚合物單元 的至少一種估計序列的步驟包括: 基於通過由單獨k聚體產生的測量的系列的模型所預測的似然來估計k聚體的序列; 以及 由k聚體的估計序列來估計聚合物單元的序列。
19. 根據權利要求1至18中任一項所述的方法,其中,估計所述聚合物中的聚合物單元 的至少一種估計序列的步驟包括: 基於通過由k聚體的整個序列產生的測量的系列的模型所預測的似然來估計k聚體的 至少一種序列;以及 由k聚體的估計序列來估計聚合物單元的序列。
20. 根據權利要求1至19中任一項所述的方法,其中,在所述至少一個測量的系列中, 測量的預定數目取決於每個k聚體,所述預定數目是一個或多個。
21. 根據權利要求20所述的方法,其中 所述方法包括接收至少一種輸入信號,所述輸入信號包含測量的輸入系列,其中,多個 測量的組取決於相同的k聚體,而沒有在所述組中測量的數目的先驗知識,以及 在所述分析步驟以前,處理所述至少一種輸入信號以確定測量的連續組以及導出關於 每個確定組的測量的所述預定數目,對由此導出的所述測量的系列或每個測量的系列進行 所述分析步驟。
22. 根據權利要求1至19中任一項所述的方法,其中,在所述至少一個測量的系列中, 多個測量的組取決於相同的k聚體,而沒有在所述組中測量的數目的先驗知識。
23. 根據權利要求1至22中任一項所述的方法,進一步包括進行聚合物的所述測量。
24. 根據權利要求23所述的方法,其中,在所述聚合物移位通過納米孔期間進行所述 聚合物的所述測量。
25. 根據權利要求24所述的方法,其中,進行所述聚合物的移位,使得多個測量的組取 決於相同的k聚體。
26. 根據權利要求24或25所述的方法,其中,以棘輪方式進行所述聚合物通過所述納 米孔的移位。
27. 根據權利要求24至26中任一項所述的方法,其中,所述聚合物是多核苷酸,並且所 述聚合物單元是核苷酸。
28. 根據權利要求24至27中任一項所述的方法,其中,所述測量的系列是在所述聚合 物移位通過納米孔期間進行的測量。
29. 根據權利要求24至28中任一項所述的方法,其中,所述納米孔是生物孔。
30. 根據權利要求24至29中任一項所述的方法,其中,所述測量包括電流測量、阻抗測 量、隧道效應測量、FET測量和光學測量中的一種或多種。
31. 根據權利要求24至30中任一項所述的方法,其中 對各自涉及所述聚合物的多個測量的系列進行所述方法,其中每個測量的值取決於k 聚體, 所述分析技術處理以多個、各自的維度安排的多個測量的系列。
32. 根據權利要求31所述的方法,其中,每個測量的系列是相同聚合物的相同區的測 量。
33. 根據權利要求31所述的方法,其中,所述多個測量的系列包括測量的兩個系列,其 中測量的第一系列是聚合物的第一區的測量以及測量的第二系列是與所述第一區相關的 聚合物的第二區的測量。
34. 根據權利要求33所述的方法,其中,所述第一區和第二區是相同聚合物的相關區。
35. 根據權利要求33或34所述的方法,其中,所述相關區是互補的。
36. 根據權利要求1至35中任一項所述的方法,其中,所述模型被存儲在存儲器中。
37. 根據權利要求1至36中任一項所述的方法,其中,在硬體設備中或在計算機設備中 實施提供模型和分析測量的步驟。
38. -種被構造成進行根據權利要求1至37中任一項所述的方法的裝置。
39. -種用於由涉及聚合物的至少一個測量的系列來估計所述聚合物中的聚合物單元 的序列的分析裝置,其中每個測量的值取決於k聚體,所述k聚體是k個聚合物單元的組, 其中k是復整數,所述方法包括: 存儲模型的存儲器,對於一組可能的k聚體,所述模型包括: 過渡權重,所述過渡權重表示從起源k聚體到目標k聚體的過渡的機會,和 關於每個k聚體的發射權重,所述發射權重表示觀測該k聚體的測量的給定值的機會; 以及 分析單元,被構造成利用參考所述模型的分析技術來分析所述測量的系列並且基於通 過由聚合物單元的序列產生的測量的系列的模型所預測的似然來估計所述聚合物中的聚 合物單元的至少一個估計的序列。
40. -種測序設備,包括: 測量裝置,被構造成進行聚合物的所述測量;以及 根據權利要求38或39所述的分析裝置。
41. 一種分析包含聚合物單元的聚合物的方法,所述方法包括: 在當跨越所述納米孔施加電壓時聚合物移位通過納米孔期間,進行取決於在所述納米 孔中的k聚體的同一性的測量,k聚體是所述聚合物的k個聚合物單元,其中k是正整數, 其中關於單獨k聚體,所述測量包括在跨越所述納米孔施加的不同水平的所述電壓下進行 的分開測量;以及 在所述不同水平的所述電壓下分析所述測量以確定至少部分所述聚合物的同一性。
42. 根據權利要求41所述的方法,其中,進行測量的所述步驟包括: 在不同的移位中在不同的水平下跨越所述納米孔施加電壓時進行所述聚合物通過納 米孔的多個移位; 在所述不同移位期間,在跨越所述納米孔的所述不同水平的所述電壓下,進行所述k 聚體的測量。
43. 根據權利要求42所述的方法,其中,所述多個移位包括在通過所述納米孔的第一 方向上的移位和在通過所述納米孔的與所述第一方向相對的方向上的移位。
44. 根據權利要求41所述的方法,其中,進行測量的所述步驟包括: 在跨越所述納米孔施加電壓時進行所述聚合物通過納米孔的移位; 在所述聚合物通過所述納米孔的所述移位期間,以具有的循環周期短於其中所述測量 取決於所述單獨k聚體的狀態的持續時間的循環,施加所述不同水平的所述電壓,並且以 所述循環在所述不同水平的所述電壓下,進行關於所述單獨k聚體的所述分開測量。
45. -種對包含聚合物單元的聚合物進行測量的方法,所述方法包括: 在跨越所述納米孔施加電壓時進行所述聚合物通過納米孔的移位; 在所述聚合物通過所述納米孔的所述移位期間,以一定循環施加不同水平的所述電 壓,以及 進行取決於所述納米孔中k聚體的同一性的測量,k聚體是所述聚合物的k個聚合物 單元,其中k是正整數,所述測量包括以所述循環在所述不同水平的所述電壓下關於單獨k 聚體的分開測量,所述循環具有的循環周期短於其中所述測量取決於所述單獨的k聚體的 狀態。
46. 根據權利要求44或45所述的方法,其中,所述循環周期是至多3秒。
47. 根據權利要求44至46中任一項所述的方法,其中,所述循環周期是至少0. 5毫秒。
48. 根據權利要求44至47中任一項所述的方法,其中,各自連續地施加不同水平的所 述電壓持續所述循環的部分周期。
49. 根據權利要求48所述的方法,其中,以所述循環在所述不同水平的所述電壓之間 的過渡被成形為減少在由電壓變化引起的測量中的電容瞬態。
50. 根據權利要求45或權利要求46至49中任一項所述的方法,當從屬於權利要求5 時,進一步包括分析所述測量以確定所述聚合物的同一性。
51. 根據權利要求41至44或50中任一項所述的方法,其中,分析所述測量以估計所述 聚合物的同一性的步驟包括分析所述測量以估計在所述聚合物中的聚合物單元的序列。
52. 根據權利要求51所述的方法,其中,分析所述測量以估計所述聚合物中的聚合物 單元的序列的步驟包括: 提供模型,對於一組可能的k聚體,所述模型包括: 過渡權重,所述過渡權重表示從起源k聚體到目標k聚體的過渡的機會,和 關於每個k聚體的發射權重,所述發射權重表示觀測該k聚體的測量的給定值的機會; 以及 利用參考所述模型並處理在跨越所述納米孔施加不同水平的電壓下進行的測量作為 以多個維度的測量的分析技術來分析所述測量,並且基於通過由聚合物單元的序列產生的 測量的系列的模型所預測的似然來估計所述聚合物中的聚合物單元的至少一種估計的序 列。
53. 根據權利要求41至44、51或52中任一項所述的方法,其中,分析所述測量以確定 所述聚合物的同一性的步驟進一步包括將在所述不同電壓水平下進行的分開測量進行比 較以確定在其中所述測量取決於所述單獨k聚體的狀態之間的過渡。
54. 根據前述權利要求中任一項所述的方法,其中,在所述不同水平的電壓之間的差異 在10mV至1. 5V的範圍內。
55. 根據前述權利要求中任一項所述的方法,其中,所述不同水平由兩種不同水平構 成。
56. 根據前述權利要求中任一項所述的方法,其中,所述不同水平的電壓具有相同的極 性。
57. 根據前述權利要求中任一項所述的方法,其中,所述測量是通過所述納米孔的離子 電流的測量。
58. 根據權利要求57所述的方法,其中,通過所述納米孔的離子電流的所述測量是通 過所述納米孔的DC離子電流的測量。
59. 根據前述權利要求中任一項所述的方法,包括: 在所述不同水平的所述電壓中的每一個下進行多個測量的組;以及 由在所述不同水平中的每一個下的多個測量的每個組導出一個或多個匯總測量以構 成關於單獨k聚體的所述分開測量。
60. 根據權利要求59所述的方法,其中,各自連續地施加不同水平的所述電壓一時間 期間,以及 在每個相應時間期間過程中,在相應期間過程中施加的所述不同水平的所述電壓之一 下,進行多個測量的組之一。
61. 根據前述權利要求中任一項所述的方法,其中,所述聚合物是多核苷酸,並且所述 聚合物單元是核苷酸。
62. 根據前述權利要求中任一項所述的方法,其中,所述納米孔是生物孔。
63. 根據前述權利要求中任一項所述的方法,其中,以其中利用所述納米孔登記連續的 k聚體的棘輪方式進行所述聚合物通過所述納米孔的所述移位。
64. 根據前述權利要求中任一項所述的方法,其中,通過分子棘輪來控制所述聚合物的 移位。
65. 根據權利要求64所述的方法,其中,所述分子棘輪是酶。
66. -種用於分析包含聚合物單元的聚合物的設備,所述設備包括: 納米孔,通過所述納米孔可以移位聚合物; 控制電路,被設置成在所述聚合物移位通過所述納米孔期間跨越所述納米孔施加電 壓;以及 測量電路,被設置成進行取決於所述納米孔中的k聚體的同一性的測量,k聚體是所述 聚合物的k個聚合物單元,其中k是正整數, 其中所述控制電路被設置成跨越所述納米孔施加不同水平的電壓,以及所述測量電路 被設置成在跨越所述納米孔施加的不同水平的所述電壓下進行關於單獨k聚體的分開測 量;以及 分析單元,被設置成在所述不同水平的所述電壓下分析所述測量以確定至少部分的所 述聚合物的同一性。
67. 根據權利要求66所述的設備,其中,所述控制電路被設置成在所述聚合物通過納 米孔的不同移位期間跨越所述納米孔施加不同水平的電壓,以及所述測量電路被設置成在 不同水平的所述電壓下在所述不同移位期間進行關於單獨k聚體的分開測量。
68. 根據權利要求66所述的設備,其中,所述控制電路被設置成在所述聚合物通過所 述納米孔的所述移位期間以具有的循環周期短於其中所述測量取決於所述單獨k聚體的 狀態的持續時間的循環,施加所述不同水平的所述電壓,並且所述測量電路被設置成以所 述循環在所述不同水平的所述電壓下進行關於單獨k聚體的分開測量。
69. -種用於測量包含聚合物單元的聚合物的設備,所述設備包括: 納米孔,通過所述納米孔可以移位聚合物; 控制電路,被設置成在所述聚合物通過納米孔的移位期間以具有的循環周期短於其中 所述測量取決於所述單獨的k聚體的狀態的持續時間的循環,施加不同水平的所述電壓; 以及 測量電路,被設置成在跨越所述納米孔施加的不同水平的所述電壓下進行關於單獨k 聚體的分開測量。
70. 根據權利要求69所述的設備,進一步包括分析單元,所述分析單元被設置成在所 述不同水平的所述電壓下分析所述測量以確定至少部分所述聚合物的同一性。
【文檔編號】C12Q1/68GK104066850SQ201280057564
【公開日】2014年9月24日 申請日期:2012年9月21日 優先權日:2011年9月23日
【發明者】斯圖爾特·威廉·裡德, 加文·哈珀, 克萊夫·加文·布朗, 詹姆斯·安東尼·克拉克, 安德魯·約翰·赫倫 申請人:牛津楠路珀爾科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀