識別統計線性數據的製作方法
2023-04-28 11:16:26 2
專利名稱:識別統計線性數據的製作方法
識別統計線性數據
相關申請的交叉引用
本申請要求2005年5月13日提交的題為"SYSTEMS AND METHODS FOR IDENTIFYING STATISTICALLY FLAT DATA IN A DATA SET (用於識別數據 集中的統計平坦(flat)數據的系統和方法)的美國臨時申請60/681,182,以及 與其相關且同時提交的題為"DETERMINATION OF BASELINE END CYCLE IN REAL TIME PCR USING DERIVATIVE PEAK ANALYSIS (使用導數峰值分 析確定實時PCR中的基線末端周期)(律師案號002558-072200US)"的序 列號No. 60/680,765的美國臨時申請的優先權,這些申請的公開通過引用全部 結合於此。本申請還涉及以下共同受讓、同時提交的題為"BASELINING
AMPLIFICATION DATA (擴增數據的基線設定)"的美國專利申請No._
(律師案號002558-072210US)。這些申請的各自公開通過一般引用全部結 合於此。
背景技術:
本發明一般涉及數據處理系統和方法,尤其涉及用於識別諸如聚合 酶鏈式反應(PCR)的擴增過程的數據集內統計線性數據的系統和方法。
許多試驗過程呈現數量的擴增。例如,在PCR中,數量可對應於DNA鏈中 已被複製部分的數目,在擴增階段或擴增區的期間,該數量顯著增加。其它呈現擴 增的試驗過程包括細菌生長過程。通過試驗設備經由數據信號來檢測該數量,並分 析其數據點以確定關於擴增的信息。作為數據分析的一部分,獲知擴增是否可能發 生是重要的;否則,工作將浪費在分析非擴增數據上。如果數據是統計線性的,則 未發生擴增。
理想情況下,來自擴增檢測設備的數據可能是單調且連續的信號,因此很容 易識別數據或其部分是否具有統計線性品質。然而,來自擴增設備的信號通常包含 噪聲,因而使信號品質難以識別。噪聲本身出現在來自設備的信號的各個數據點中, 並具有在例如DNA鏈的實際數目的真實信號上發生的隨機波動。因而,數據需要 進行處理以便能識別線性品質。一種用於處理數據以判定其是否為統計線性的典型現有方法是通過線性最小
二乘方(LSQ)擬合。LSQ擬合的相關值可用於判定是否充分擬合。通過標準約定, 相關值0與不良擬合相關,因此數據不是線性,而值l表示良好線性擬合。問題在 於,存在噪聲時,對於看起來統計線性的數據,相關值可能接近0或1。此外,相 關值並不對應於可提供額外理解和效能的物理值。因而,相關值不是可以接受的標 準,尤其對於噪聲極大的數據而言。
因此,期望提供用於處理具有噪聲的數據集、以及用於識別該數據集是否為 統計線性並且克服了上述及其它問題的系統和方法。
發明內容
因此,本發明的實施例提供了針對處理數據以判定數據是否呈現統計線性品 質的方法和系統。統計線性數據表示數據一般不向下或向上彎曲或者以其它方式顯 示擴增。這種數據通常呈大致線性,其中較大噪聲信號疊加其上。可從實時PCR 過程或呈現擴增或生長的其它過程接收該數據。
根據本發明的一個示例性實施例,提供了處理數據的方法。該方法通常包括 接收具有信號分量和噪聲分量的原始數據點集。原始數據集被擬合到線性函數。在
一個方面中,該擬合通過對數據集計算線性最小二乘方擬合來實現。該方法還包括 計算原始數據集與線性擬合之間的殘差,以及計算原始數據集與線性擬合之間的殘 差量度。在一個方面中,該量度是標準偏差。
該方法還通常包括通過計算經平滑的數據集以及計算經平滑的數據集與原始 數據集之間的殘差來估算數據集中存在的噪聲分量。經平滑的數據點基於該經平滑 數據點局部的原始數據點的值。在一個方面中,低通濾波器用於計算經平滑的數據 集。示例性低通濾波器包括Savitzy-Golay濾波器、數字濾波器或數字平滑多項式 濾波器。在另一個方面中,經平滑的數據點的值是落在包圍該經平滑數據點的窗口 內的原始數據點的平均值。
該方法通常還包括計算所估算噪聲的殘差的量度,以及比較量度以便判定原 始數據集是否呈現統計線性品質。比較可包括計算第一與第二量度的比值,以便判 定比值小於還是大於預定值。在一個方面中,預定值在l的量級上。
在較佳方面中,在諸如獨立計算機、網絡附連計算機的處理器或諸如實時PCR 機器的數據採集設備中實現該方法。實時PCR機器的一個示例是由 Bio-RadLaboratories提供的iCycler iQ系統。根據本發明的另一個示例性實施例,提供了具有適於引導信息處理設備執行 處理數據以判定曲線是否呈現線性品質的操作的多個指令的信息存儲介質。在一個
方面中,信息存儲介質是RAM或ROM單元、硬碟、CD、 DVD或其它可攜式介質。
根據本發明的另一個示例性實施例,提供了PCR檢測系統。該PCR檢測系統 包括用於產生具有信號分量和噪聲分量的原始數據點集的檢測器,並且包括用於處 理數據以判定該數據是否呈現線性品質的邏輯。
對包括附圖和權利要求的本說明書剩餘部分的參考將實現本發明的其它特徵 和優點。以下將參照附圖詳細描述本發明的其它特徵和優點以及本發明各個實施例 的結構和操作。在附圖中,相似的附圖標記表示相同或功能相似的要素。
圖1示出了PCR擴增曲線的一個示例。
圖2示出了呈現噪聲和統計線性品質的實時PCR數據集。
圖3示出了呈現噪聲和擴增的實時PCR數據集。
圖4示出了根據本發明的一個實施例的處理數據集以判定該數據集是否呈現 統計線性品質的方法。
圖5A示出了對呈現統計線性品質的數據集進行的線性擬合。
圖5B示出了對呈現擴增品質的數據集進行的線性擬合。
圖6A示出了根據本發明的一個實施例的實時PCR數據的經平滑數據集。
圖6B示出了根據本發明的一個實施例的實時PCR數據的估算噪聲。
圖7示出了根據本發明的一個實施例的處理實時PCR數據的系統。
具體實施例方式
本發明提供了用於處理數據集並識別該數據集是否為統計線性、以及將這種 線性數據集與包含擴增信號的數據集區別開的技術。在較佳方面中,對於處理來自 PCR生長或擴增過程的數據以便在進一步分析該數據之前識別和移除統計線性數 據,本發明尤其有用。然而,應該理解,本發明的技術適於處理可能包括噪聲的任 何數據集或曲線,尤其是除此之外可能呈現諸如細菌生長過程的生長或擴增的曲 線。
圖1示出了 PCR曲線100的一個示例,其中繪製了典型PCR過程的強度值110相對於周期數120。值110可以是任意感興趣的任意物理量,而周期數可以是 與該過程的時間或步驟數相關聯的任意單位。這些擴增曲線通常具有線性區域 130、緊隨其後的擴增區域140以及之後的漸近區域150,如圖1所示。可能還存 在諸如向下彎曲數據的附加類型的品質。擴增區域可具有指數、反曲(sigmoidal)、 高階多項式或其它類型的邏輯函數或模擬生長的邏輯曲線。
為了理解所涉及的試驗過程,識別擴增區域140的位置和形狀是很重要的。 例如,在PCR過程中,可能期望識別擴增的開始,它發生在基線區域(線性區域 130)末端。識別位置的步驟是識別可能的擴增區域是否確實存在,因為PCR過程 可能不呈現任何擴增。然而,由於實時PCR數據具有噪聲,所以可能難以識別數 據集是否可能呈現擴增或等價於它是否不是統計線性。
例如,圖2示出了由具有包括信號和噪聲的數據點240的數據集構成的實時 PCR曲線200的線性區域230。注意,即使對於產生恆定信號的設備,也必須將該 數據分割成數據點以便分析。噪聲導致數據點的波動。總體而言,數據通常以線性 方式向上移動(即正斜率)。然而,由於曲線200在點與點之間完全非線性,所以 一般的線性品質無法通過在沿曲線的任意一點上直接分析曲線200來判定。直接分 析曲線200可能會錯誤地判定數據不呈現統計線性品質。本發明的實施例可有效地 判定數據是否呈現統計線性品質。
此外,區分具有線性品質的數據曲線和具有擴增品質的數據曲線是很重要的。 圖3示出了呈現擴增的實時PCR曲線300。最初,數據在區域330中呈現線性品 質,而在隨後周期中,區域340中存在擴增。本發明的實施例是穩定並一致地精確 區分僅具有線性品質的PCR曲線200和諸如PCR曲線300的可能具有擴增區域的 PCR曲線。
圖4示出了根據本發明的一個實施例的處理數據以判定該數據是否呈現統計 線性品質的方法400。數據集由數據點構成,並且表示具有信號分量和噪聲分量的 曲線。
在步驟405,首先收集或接收數據集。可通過任意機制來接收該數據集。例如, 該數據集可通過駐留在諸如iCycler iQ設備的PCR數據採集設備或類似的PCR分 析設備中的(執行指令的)處理器來採集。可在收集數據時將數據集實時地提供給 處理器,或者可將其存儲在存儲器單元或緩衝器中並在試驗完成之後提供給處理 器。類似地,可經由到採集設備的網絡連接(例如LAN、 VPN、內聯網、網際網路 等)或直接連接(例如USB或其它直接接線或無線連接)將數據集提供給諸如臺式計算機系統的分離系統,或者設置在諸如CD、 DVD、軟盤等的可攜式介質上提 供給獨立計算機系統。在接收或採集到數據集之後,可對該數據進行分析。
在步驟410,對數據集計算線性擬合。通常,擬合定義了衡量數據集與擬合之 間的一致或差異的優質函數(merit function) S ,其中優質函數的較小值通常表示 用於擬合的較好參數。例如,在線性最小二乘方擬合中,優質函數是數據值y與擬
合函數/(x,)之間差值的平方,其中對於N個數據點,/(x,))2。在PCR
過程中,y是數據強度,而x是周期數。圖5A示出了 PCR曲線200的線性擬合 510。圖5B示出了 PCR曲線300的線性擬合550。
對於不同數據點,優質函數可包括對優質函數的不同加權基值(contribution) 或歸一化因子。在取差值之前,優質函數還可按比例換算數據點值或對數據點取函 數。可在一;c值的數據與不同x值的/(x)之間取差值。例如,優質函數中的一項可
表示從數據曲線到線性擬合的線的長度,其中該線與線性擬合垂直。這發生在不同 的周期數處,除非線性擬合的斜率為0。本領域技術人員將意識到可使用的許多不 同的優質函數。
在步驟415,計算數據與線性擬合之間的殘差i 。殘差i 是與數據點偏離線性
擬合的誤差相對應的一組值。例如,殘差可以是每個周期數的線性擬合值與實際數 據點的差值,表示成《=1^-/(;0,它是殘差的標準形式。在一些實施例中,殘差
與用於確定線性擬合的優質函數的值相關。在其它實施例中,殘差是不同的值。在 圖5A中,誤差520用於計算曲線200與線性擬合510之間的殘差i 的值。在圖5B 中,誤差560用於計算曲線300與線性擬合550之間的殘差i 的值。
在步驟420中,計算數據與線性擬合之間的殘差量度cr,。該量度是由一組殘
差值得到的單個值。在一個實施例中,殘差是標準偏差,表示成cT,」丄i:《2 。 一
些實施例可具有各個殘差值的加權值,而其它實施例可將各個殘差值或所有殘差值 代入到附加函數或其它函數。本領域技術人員將意識到可使用的許多不同的量度。
在步驟425中,計算數據集中出現的估算噪聲分量。假設數據由真實信號和 噪聲的兩個分量構成。因而,噪聲是真實信號與實際數據點之間的差。然而,真實 信號不可能直接測量,因為當檢測信號時,總是添加有或出現噪聲。
真實信號被估算為由經平滑的數據點構成的經平滑數據集。圖6A示出了 PCR 曲線300的經平滑的數據集670。經平滑的數據點的值是基於經平滑的數據點局部的多個原始數據點的函數G。術語局部涉及數據點的X值與被計算的數據點相距多 遠。例如,如果一個點與另一個點相差預定數目(窗口)的周期,則該點在另一個 點局部。三個或五個周期的窗口被證明為適當的,但是也可使用其它窗口,諸如 10或20個周期或以上。還可使用可變窗口值,即可使用不同窗口來計算各個經平 滑的數據點。此外,可使用具有分數個周期的窗口,例如其中內插分數個數據點。 窗口也可以關於數據點不對稱,即可使用數據點之前的一個點以及該數據點之後的 三個點。
一旦x值之差逼近所使用的總範圍一即周期總數,則該點不再是局部。
在一個實施例中,函數G是移動平均值或低通濾波器。例如,函數G可對指 定周期數內的原始數據點取平均值,即居中平均值。因此,在一個實施例中, G(^):^^2k,其中L是所計算的經平滑的數據點的下標(index),而K為
所用窗口。
同時,在步驟425,計算經平滑的數據與原始數據之間的殘差。該殘差被定義 成估算噪聲。經平滑的數據與原始數據之間的殘差可以以相同方式定義成原始數據
與線性擬合之間的殘差,或者這些殘差可以以不同方式定義。圖6B示出了與PCR 曲線300和經平滑的數據集670相關聯的估算噪聲分量680。噪聲分量680與信號 670的疊加形成數據曲線300。
在步驟430,計算經平滑的數據與原始數據之間的殘差量度 。 值用作固 有噪聲幅度的量度。在一個實施例中,A是標準偏差。可以以相似或不同的方式 定義量度o^和c^ 。
在步驟435,將第一量度C7,與第二量度^進行比較以判定數據集是否呈現線 性品質。在一個實施例中,取(T,與a2的比值。如果比值小於或大於預定值,則數
據被判定為呈現線性品質。例如,如果^/072小於1的量級上的值,例如1.5,則該 數據被判定為線性。等效地,可使用表達式C7^(v^2。該表達式說明數據與線性
擬合之差的量度必須小於數據中出現的估算噪聲的量度的常數倍。在某些實施例
中,Co的值可變化。
常數Co與噪聲定義以及其它值並不唯一的事實相關。c。的值可通過檢查大量 數據集來獲得,以便於獲得該數的合理值。研究表明當使用標準殘差的標準偏差時, 值1.5適於作為常數(Cq)。當使用其它殘差或殘差的量度時,其它值可能更適合。 通常,co的值在1的量級上時應當工作良好。
一旦數據已被識別為統計平坦(線性),例如沒有向下或向上彎曲或者以其它方式顯示擴增,則放棄對該數據的進一步分析。
在某些方面中,用於控制處理器以實現本發明的數據處理技術的代碼和指令 存儲在計算機可讀介質或信息存儲介質上,諸如RAM或ROM單元、硬碟驅動器、
CD、 DVD或其它可攜式介質。
圖7示出了根據本發明的一個實施例的系統700。所示系統包括在樣品容器 710內的諸如細菌或DNA的樣品705。來自樣品的諸如螢光強度值的物理特徵715 由檢測器720來檢測。包括噪聲分量的信號725從檢測器720發送到邏輯系統730。 來自信號725的數據可存儲在本地存儲器735或外部存儲器740或存儲設備745 中。在一個實施例中,模-數轉換器將模擬信號轉換成數字形式。
邏輯系統730可以是或可包括計算機系統、ASIC、微處理器等。它還可包括 顯示器(例如監視器、LED顯示器等)和用戶輸入設備(例如滑鼠、鍵盤、按鈕 等)或與它們耦合。邏輯系統730和其它組件可以是獨立或網絡連接計算機系統的 一部分,或者它們可直接附加到或結合到熱循環設備。邏輯系統730還可包括在處 理器750中執行的優化軟體。
根據一個實施例,邏輯系統730包括用於處理數據和識別統計平坦數據的指 令。儘管這些指令也可在諸如軟盤、CD、 DVD等的任何軟體存儲介質上提供,但 是較佳地將指令下載並存儲在存儲器模塊735、 740或745 (例如硬碟驅動器或諸 如本地或附加RAM或ROM的其它存儲器)中。應該理解,可通過諸如C、 C++、 Java、 Visual Basic及其它、或諸如VBScript、 JavaScript、 Perl的任何腳本語言、 或諸如XML的標記語言來實現用於實現本發明的諸方面的計算機代碼。此外,各 種語言和協議可用於根據本發明的諸方面的數據和命令的外部和內部存儲以及傳 輸。
應該理解,本文所述的過程是說明性的,而且變化和更改是可能的。順序描 述的步驟可並行執行,步驟的次序可改變,並且步驟可被更改或組合。
雖然本發明作為示例並就具體實施例而得到描述,但是應該理解本發明並不 局限於所公開的實施例。相反,它旨在涵蓋對於本領域技術人員而言顯而易見的各 種更改和相似配置。因此,對所附權利要求書的範圍應當給予最寬泛的解釋,以便 包括所有這些更改和相似配置。
權利要求
1.一種處理數據集以判定所述數據集是否呈現統計線性品質的方法,所述方法包括接收具有信號分量和噪聲分量的原始數據點集;將所述原始數據集擬合到線性函數;計算所述原始數據集與所述經擬合的線性函數之間的殘差;計算所述原始數據集與所述經擬合的線性函數之間的所述殘差的第一量度;估算所述原始數據集中存在的所述噪聲分量,通過i)通過確定一組經平滑的數據點來計算經平滑的數據集,其中經平滑的數據點的值是基於所述經平滑的數據點局部的多個原始數據點的值;以及ii)計算所述經平滑的數據集與所述原始數據集之間的殘差;計算所述經平滑的數據集與所述原始數據集之間的所述殘差的第二量度;以及將所述第一量度與所述第二量度進行比較以判定所述原始數據集是否呈現線性品質。
2. 如權利要求1所述的方法,其特徵在於,擬合所述原始數據集包括使用最 小二乘方擬合。
3. 如權利要求1所述的方法,其特徵在於,計算所述經平滑的數據集包括使 用低通濾波器。
4. 如權利要求l所述的方法,其特徵在於,經平滑的數據點的值是落在包圍 所述經平滑的數據點窗口內的所述原始數據點的平均值。
5. 如權利要求4所述的方法,其特徵在於,所述窗口為5個單位。
6. 如權利要求1所述的方法,其特徵在於,所述第一量度與所述第二量度各 自為標準偏差。
7. 如權利要求1所述的方法,其特徵在於,比較包括計算所述第一與第二量 度的比值以便判定所述比值是小於還是大於預定值。
8. 如權利要求7所述的方法,其特徵在於,所述預定值在l的量級上。
9. 如權利要求l所述的方法,其特徵在於,所述數據表示PCR擴增曲線。
10. 如權利要求l所述的方法,其特徵在於,所述方法在處理器中實現。
11. 如權利要求io所述的方法,其特徵在於,所述處理器結合在獨立計算機 系統、網絡化計算機系統或實時PCR機器之一中。
12. —種具有適於引導信息處理設備執行處理數據以判定所述數據是否呈現線性品質的操作的多個指令的信息存儲介質,所述操作包括步驟接收具有信號分量和噪聲分量的原始數據點集; 將所述原始數據集擬合到線性函數;計算所述原始數據集與所述經擬合的線性函數之間的殘差; 計算所述原始數據集與所述經擬合的線性函數之間的所述殘差的第一量度; 估算所述原始數據集中存在的所述噪聲分量,通過i) 通過確定一組經平滑的數據點來計算經平滑的數據集,其中經平滑的數據點的值是基於所述經平滑的數據點局部的多個原始數據點的值;以及ii) 計算所述經平滑的數據集與所述原始數據集之間的殘差; 計算所述經平滑的數據集與所述原始數據集之間的所述殘差的第二量度;以及將所述第一量度與所述第二量度進行比較以判定所述原始數據集是否呈現線 性品質。
13. 如權利要求12所述的信息存儲介質,其特徵在於,擬合所述原始數據集 包括使用最小二乘方擬合。
14. 如權利要求12所述的信息存儲介質,其特徵在於,計算所述經平滑的數 據集包括使用低通濾波器。
15. 如權利要求12所述的信息存儲介質,其特徵在於,經平滑的數據點的值 是落在包圍所述經平滑的數據點的窗口內的所述原始數據點的平均值。
16. 如權利要求12所述的信息存儲介質,其特徵在於,所述第一量度與所述 第二量度各自為標準偏差。
17. 如權利要求12所述的信息存儲介質,其特徵在於,所述比較包括計算所 述第一與第二量度的比值以便判定所述比值是小於還是大於預定值。
18. 如權利要求12所述的信息存儲介質,其特徵在於,所述數據表示PCR擴 增曲線。
19. 一種PCR檢測系統包括檢測器,用於產生具有信號分量和噪聲分量的原始數據點集; 邏輯,用於處理數據以判定所述數據是否呈現線性品質,通過將所述原始數據集擬合到線性函數;計算所述原始數據集與所述經擬合的線性函數之間的殘差;計算所述原始數據集與所述經擬合的線性函數之間的所述殘差的第一度估算所述原始數據集中存在的所述噪聲分量,通過i) 通過確定一組經平滑的數據點來計算經平滑的數據集,其中經平滑的數據點的值是基於所述經平滑的數據點局部的多個原始數據點的值;以及ii) 計算所述經平滑的數據集與所述原始數據集之間的殘差; 計算所述經平滑的數據集與所述原始數據集之間的所述殘差的第二量度;以及將所述第一量度與所述第二量度進行比較以判定所述原始數據集是否呈 現線性品質。
20. 如權利要求19所述的PCR檢測系統,其特徵在於,擬合所述原始數據集 包括使用最小二乘方擬合。
21. 如權利要求19所述的PCR檢測系統,其特徵在於,計算所述經平滑的數 據集包括使用低通濾波器。
22. 如權利要求19所述的PCR檢測系統,其特徵在於,經平滑的數據點的值 是落在包圍所述經平滑的數據點的窗口內的所述原始數據點的平均值。
23. 如權利要求19所述的PCR檢測系統,其特徵在於,所述第一量度與所述 第二量度各自為標準偏差。
24. 如權利要求19所述的PCR檢測系統,其特徵在於,所述比較包括計算所 述第一與第二量度的比值以便判定所述比值是小於還是大於預定值。
全文摘要
提供了用於處理具有噪聲的數據集以判定該數據集是否呈現統計線性品質的方法、裝置和系統。基於數據的局部特性計算真實數據信號,而根據真實數據信號對數據中的噪聲進行估算。然後,將估算噪聲的量度與數據集的線性擬合特性進行比較。
文檔編號G06F19/00GK101292245SQ200680016219
公開日2008年10月22日 申請日期2006年5月12日 優先權日2005年5月13日
發明者J·雷納 申請人:生物輻射實驗室股份有限公司