分析選定的多組分樣品的方法

2023-05-08 07:56:46 4

專利名稱：分析選定的多組分樣品的方法
技術領域：
本發明涉及一種對數據、特別是對從包含多個組分的系統(例如含有多個未經鑑定的化合物的組合物)中得到的數據進行分析的方法，以及用於實施這種分析的程序和計算機。
在環境監測和醫療診斷分析中，分析人員可得到含有多個未經鑑定的化學或生物組分的樣品(例如體液、廢液或廢氣樣品)，比方說包含幾百種化合物，分析人員需要確定出抽樣分析的物質是否會造成環境危險或含有病狀跡象。目前使用的一種典型技術是所謂的埃米斯(Ames)測試，這種技術是使一種細菌的選定突變菌株暴露在樣品中，並通過測定細菌的突變程度來評估環境樣品的毒性(致突變性)，其中細菌由於發生突變，因此具有自然(野生)菌株中存在而選定的突變系中缺乏的特性。
我們可以看到，這樣的測試僅僅表明特定的樣品具有毒性，而並沒有指出產生毒性的特定化合物或一組化合物，也沒有給出預測其他樣品毒性的基準。
同樣，大多數診斷分析僅僅檢測出一種單一化合物的存在或過量，但卻沒有指出還可表徵特定病狀或其他病狀的其他化合物的存在或過量。
可以用色譜技術(例如用液相色譜或氣相色譜)分離多組分混合物中的各個組分，也可以用光譜技術(例如質譜、IR、UV、拉曼、ESR和NMR光譜)來測定各個組分的光譜特徵；然而，色譜分離一般無法分離出由幾百種化合物組成的混合物中的每一種組分，而且色譜分離很昂貴、耗時，一般來說，對一個多組分樣品的所有餾分或組分進行毒性分離或其他檢測是不切實際的。
因此，人們需要一種對多組分混合物進行分析的方法，這種方法能夠整體預測混合物的效應(例如毒性)，而且可以集中並有可能鑑定出對這種效應起主要作用的組分。
現在，我們已經找到了這樣的方法，它能夠實現這樣的功能，即對大多數相似的樣品來說，我們可以得到樣品效應的數據，也可以得到樣品的分離餾分(例如樣品的色譜分離餾分)的特徵光譜數據。
因此，從一方面來看，本發明提供了一種用於分析選定的多組分樣品的方法，以便預測樣品的某種本徵值(property value)，這種方法包括i)確定多個相似的多組分樣品的所述本徵值；ii)對每一種所述相似樣品來說，a)沿一個分離量度(dimension)分離樣品的組分，b)在沿以所述分離量度的多個位置上對樣品的多個部分進行採樣，c)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，d)為所述分離量度的各個部分選擇幾組所述圖形(pattern)，並且從其中確定所述部分的各個組分的特徵圖形和分離量度分布曲線；iii)將沿分離量度的確定圖形與其分布曲線的位置進行比較，由此可以鑑定出所述相似樣品中的類似組分；iv)將所述相似樣品中的組分的所述本徵值和所確定的分布曲線強度進行比較，由此產生一個預測樣品的所述本徵值的模型；v)對所述的選定樣品來說，A)沿一個分離量度分離其組分，B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，C)確定每一部分的圖形，該圖形可以表徵該部分的單一或者多組分的性質，D)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定出這些部分的各個組分的特徵圖形和分離量度分布曲線，E)將所述模型施加到所述選定樣品中各個組分的已確定分布曲線的強度上，由此對所述選定樣品的所述本徵值進行估算。
「本徵(property)」指的是任何能夠被指定數值的性質；然而它也可能是例如零或者一，其中間級度(gradation)是不可能或不需要的，例如生或死、感染或未感染等等。
本發明的方法涉及到根據對相似樣品的分析來構建一種預測模型，對於這樣的相似樣品來說，其本徵值已經確定，然後將這種模型施加到無需確定本徵的樣品的分析結果中。由於相似性意味著樣品是相同的類型，或具有相同或相似類型的來源，例如，樣品都是來自於相同工藝或操作的廢氣或廢液，或者是從相同物種的成員中的相同體液、組織、滲出液等中取得，例如血液、血清、血漿、尿液、粘液、唾液、糞便、汗液、體內氣體等等。因此，「相似」的樣品將共同含有「選定」樣品中存在的多個、優選的是全部或絕大部分組分。
本發明的方法涉及對多組分樣品的各個組分進行分離。這樣的分離可以是但並不需要是完全的，而目每個取樣部分(例如對於質譜分析來說)可以因此含有一種或多種成分。所以，如果藉助於氣相或液相色譜法進行分離，那麼同樣的組分可存在於沿分離量度(例如洗脫時間)的幾個相鄰部分中。因此，在用氣相色譜-質譜(GC-MS)法時，這種方法涉及對相鄰部分的質譜圖譜的研究，以便鑑定出各個組分的MS特徵峰，並且計算出各個組分沿洗脫時間的GC分布曲線。如果需要的話，可以排除分離量度的無用部分的數據，這樣，需要確定分布曲線的組分可以僅僅需要包括所存在的全部組分的一個子集。那些已確定的分布曲線的強度(例如，峰高、峰的面積或簡單的是/否的值)可用於預測模型的構建和應用。通過對不同樣品的數據進行比較可精確制定出預測模型，這樣就可以識別出在分布曲線(例如保留時間或調整保留時間)和圖形(例如質譜)方面相同或非常相似的類似組分。
對許多樣品的分析來說，一個供應商可以向用戶提供預先計算好的預測模型，因此，從這一方面來看，本發明提供了一種用於預測多組分樣品的本徵值的預測模型的產生方法，這種方法包括i)確定出多個相似的多組分樣品的所述本徵值；ii)對每一種所述的相似樣品來說，a)沿一分離量度分離它的組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，c)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，
d)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定所述部分的各個組分的特徵圖形和分離量度分布曲線；iii)將沿分離量度的確定圖形與其分布曲線的位置進行比較，由此鑑定出所述相似樣品中的類似組分；iv)將所述相似樣品中各個組分的所述本徵值和確定的分布曲線強度進行比較，由此產生一個預測樣品的所述本徵值的模型。
從另一方面看，本發明提供了一種對選定多組分樣品進行分析的方法，以預測它的本徵值。這種方法包括A)沿一分離量度分離樣品的組分，B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，C)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，D)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定出該部分的各個組分的特徵圖形和分離量度分布曲線，E)將所述模型施加到所述選定樣品中各個組分的已確定分布曲線的強度上，由此對所述選定樣品的所述本徵值進行估算。
同時，正如下面將要進一步討論的，本發明的方法可以更廣泛地應用於多組分樣品，以下將進一步詳細描述的這個方法，涉及到利用產生各個部分的色譜分離和產生圖形的光譜分析對包含大量化合物的樣品進行分析，以得到定量性質例如物理、化學性質，特別是生物學性質(例如毒性、致突變性、病狀、基因型、治療效果等等)。
雖然如上所述，我們可以使用許多不同的光譜分析方法，但光譜的波峰(或波谷)尖銳的技術是特別優選的，例如NMR，尤其是質譜(MS)。同樣，優選的是採用液相色譜或更好的氣相色譜進行分離。
可以利用能產生樣品的色譜分離光譜數據的設備，例如GC-MS設備。
因此，用於按照本發明的分析方法的起始數據可以認為是一個二維矩陣(即色譜部分的數據和每一個色譜部分的光譜數據)，再加上用於產生預測模型的每一樣品的確定本徵值和用於產生選定樣品的預測值的二維矩陣(即色譜部分的數據和每一個色譜部分的光譜數據)。同樣，色譜和光譜數據將包括強度和位置(例如洗脫時間或質量數或質荷比)數據。
為了減少所需的計算時間，這一點在樣品含有幾百種化合物的時候特別重要，我們可以通過去掉峰高低於預設最小值(例如，在餾分中樣品的化合物的量為零或非常低，或者光譜的波峰處於噪聲級)的數據，或者去掉與已知或認為對本徵無影響的化合物相對應部分的數據(例如較低分子量、快速洗脫的化合物)，來限制輸入數據。
一般來說，數據矩陣可以首先通過去除在洗脫時間沒有組分流出(即色譜信號(高度)低於預設界限)的洗脫時間數據而加以簡化。然而，這種刪除最好是在沿時間方向的位置上進行，在這個位置上信號與峰高的關聯很小。
可以通過以下方式實現這一點設定一個相鄰波峰比值(，例如比值為0.1到0.4，優選的是0.3，並且只有在波峰的信號比率低於這個值時才去掉這個數據，而不是在信號達到跟隨波峰分最小值的時間位置上或者在信號低於預設清除極限的時間位置上清除這個數據。清除極限本身一般根據用戶的需要進行設置——一個更高的值會去掉更多的數據，因而會忽略更多的次要組分，反之也是如此。清除界限一般設定為最小可區分信號高度的5％-10％。很明顯，清除極限越低，就會保留更多的數據，這樣就會分析更多的組分。
2D GC-MS數據能夠包括由各種原因產生的背景噪聲。檢測器性能方面的變化能夠導致色譜基線的偏移和漂移，而且柱流失能夠導致背景光譜的存在。這就需要我們在去除零信號或噪聲信號保留時間之後，對剩餘的色譜峰進行背景校正。這一點可以通過對一次(即線性)估算基線進行計算來實現，這條基線具有的斜率與峰簇任一側的零組分區域的外推直線的斜率近似。
這樣，對於以這種方式選定的每一色譜峰簇來說，都可以對單獨的光譜數據集進行標準化，例如，設定最大的譜峰高度為1或總的譜峰面積為1，或者也可以把最大譜峰高度設定為與選定色譜峰簇的峰面積成比例的值。
優選的是，以這種方式選定的色譜峰簇延續至少20個分辨時間閥值(valves)，即與它們關聯的至少有20ms譜項。
隨後，光譜數據的數據簡化可以同樣進行。因此，對MS來說，如果同時考慮整個洗脫時間，那麼在可記錄範圍內的大多數，甚至全部質量數都包含至少一個組分的信號。然而，在色譜部分的質譜圖中，許多質量數並不包含信號或者所包含的信號僅僅是由於噪聲引起的。這種質量數的存在降低了解析過程的質量，所以，最好在解析之前就把它們從譜項中消除。
當然，檢測出零信號的質量數是沒有價值的，可以用形態學標準和F測試(參看Shen et al.Chemomem.Intell.Lab.Syst.5137-47(2000))相結合來檢測由於隨機噪聲造成的信號的質量數，F測試利用了這樣一個事實，即噪聲的頻率比一種化學組分發出的信號的頻率更高。這樣，在解析之前，就消除了高達約90％的質譜數據。
隨後，調整的光譜數據就可以解析為單波峰。這實際上涉及到求解方程X＝CST+E (1)對C和S來說，X是被記錄的數據，C是色譜分布曲線，S是質譜，T表示矩陣位移，E是剩餘矩陣。
這個方程可以用多種方法求解。然而，優選的方法是Manne et al in Chemom.Intell.Lab.Syst.5035-46(2000)中描述的GENTLE方法，該文獻的內容在此作為參考併入本文。
首先，例如用簡化的Borgen方法(參見Grande et al.，Chemom.Intell.Lab.Syst.5019-33(2000)，該文獻的內容在此作為參考併入本文)找出A的關鍵譜項S。(「A」在這裡是化學等級)。在峰簇中，關鍵譜項是最純的譜項。可以通過把數據標準化為數據的第一個奇異(singular)向量上的常數投影而找到關鍵譜項。(術語「奇異」是指該向量是一個奇異值解析(SVD)的結果，SVD是一種標準的數值計算方法。在矩陣式中X＝U∑VT，U的第一個列向量有時被稱為第一左奇異向量，它被用來進行投影。隨後，可以在凸邊上的極值點處發現關鍵譜項，並且該關鍵譜項被界定為如此出現的數據的表示。關鍵譜項S0表示真實譜項S的初始估計值。真實色譜分布曲線C0的初始估計值C0可以隨後通過求解關於C的方程(1)得到，因此，C0＝XS0(S0TS0)-1(2)為了由初始估計值C0和S0得到真實分布曲線和譜項的估計值C和S，需要藉助於迭代過程。可以通過確定方程(3)和(4)的變換矩陣T實現這一步C＝C0T (3)ST＝T1S0T(4)T是幾個初等矩陣的乘積，可以用迭代方法生成T，通過在C和S的中間解(intermediate solution)上設定某些限制可以使迭代方法變得易解。因此，對S和C來說，我們假定峰值(無論是在色譜中還是在質譜中)必須為正，而對C來說，我們假定一個純的色譜峰應該是單峰。例如，下面的標準可用於實現解析和對解析進行評估組分窗口可用線性回歸使一個組分在色譜區域之外的非零偏差最小，這個區域在噪聲極限之上。
平滑度可以假定一個化合物的色譜峰是連續的(這樣就可以把它和噪聲區分開)。
顯著性一個組分的色譜峰的頂點強度一般應該明顯高於數據的決定極限(即前面指出的消除極限或最小可區分信號高度)；一般來說，只有頂點強度至少是決定極限兩倍的峰值才可能被接受。
完全性在選定的色譜峰簇完成之前，優選的是檢查一下解析峰是否降低到噪聲水平；如果沒有，那麼應該用一個更大的峰簇重複這個過程。
可以用一個相對大的數目(例如8到12，優選的是10)啟動，從而逐階得到化學等級或關鍵譜項的數目。在根據關鍵譜項的特定數目對計算出解(solution)之後，可根據上面的標準對解進行評估。如果分布曲線的解析質量很差，那麼就應該用更大數目的關鍵譜項重複解析過程，更一般的做法是，用更小數目的關鍵譜項重複解析過程。
在解析之後，可以對解析的質譜S標準化，這樣最大的強度為1.0，而色譜分布曲線C可用以下方程重新計算C＝XS(STS)-1(5)然後，在光譜中就會給出定性信息，與此同時，在色譜分布曲線中會給出定量信息(該色譜分布曲線可積分，以便得到面積)。
實際上，解析過程涉及到比較一個樣品的選定質譜圖，以便鑑定出樣品中各個化學組分的特徵譜線組，並且解析過程還涉及到這些組分的特徵色譜分布曲線的確定。隨後，可把各個組分的列表做為一個樣品的輸出數據，這些組分可用質譜譜線和它們的色譜分布曲線的位置(即洗脫時間)和面積進行表徵。對多個樣品進行這樣的操作，就可以產生一個預測值矩陣，而這個矩陣就可用於產生預測值模型。舉例來說，Y＝Xb，在這裡，X是預測值矩陣，b是回歸係數(預測值模型)，Y是樣品本徵的預測值。
因此，在生成預測值矩陣的過程中，可對不同樣品的輸出數據進行比較，並測定相似組分(即化合物)的存在。隨後，可用回歸分析確定每一個組分對樣品總的測定本徵(例如致癌性)的貢獻的相對大小和負面或正面性質。然後，這些貢獻值就可以表達為每一個組分貢獻的預測值模型。通過把這個預測值模型應用到另一個樣品的已確定組分濃度的分布曲線中，就可以簡單估算另一樣品的本徵值。
一般來說，預測值矩陣的產生包括如下幾個步驟i)載荷已測定本徵值的樣品的解析分布曲線，每一個樣品的分布曲線一般包括面積(色譜峰面積)、保留時間和每一個解析組分的標準化質譜圖；ii)使各個解析的分布曲線按照保留時間遞增的順序排列；iii)將保留時間在特定範圍內(1到8分鐘，典型為4分鐘)的不同組分的質譜進行比較，以便鑑定出兩種或兩種以上樣品中共有的組分，從而就可以減少隨後的回歸分析的變量數目；iv)為樣品的解析組分建立回歸模型，該模型把已測定的本徵值與幾組保留時間和面積值聯繫起來。
比較步驟(iii)一般涉及到有相似保留時間的不同樣品中i和j組分的質譜Si和Sj之間的光譜相似指數Sij的測定。Sij可表示為Sij＝SiTSj(6)而且，如果存在預置極限(例如0.9)之上的數值，那麼組分i和j就可以分類為類似物。
當預測值矩陣已經建立時，可把本徵的測定值與所計算的樣品的解析組分的幾組面積聯繫起來，從而對分類模型或回歸模型進行評估。利用商業上購得的多元分類/回歸分析電腦程式(例如從挪威卑爾根的模式識別系統公司購得的天狼星程序)，可由預測值矩陣對模型進行計算。
在附圖的

圖1中，示意性地給出了一個典型預測模型的例子。在這個圖中，x軸是組分的保留時間，y軸是需要測定本徵的樣品中解析的每一種組分的回歸係數值。在該情形中，所測定的本徵是致突變性(用埃米斯測試測量)，而樣品是環境汙水樣品。
對具有更大回歸係數的組分的生物學影響更大，而且，正如我們看到的，對具有更長保留時間的組分的生物學影響也更大。
如果需要的話，通過在GC-MS分析之前將具有已知質譜而樣品中不存在的化合物摻入樣品中，可使比較步驟容易實施。這些化合物的保留時間中的任何變化都可用來決定保留時間的選擇範圍的大小，這樣就可以確定相似化合物。不過，那些摻加化合物的分布曲線不會用在預測值矩陣的生成過程中，因為這些化合物在未摻合的樣品中並不存在，它們無疑對本徵值並沒有貢獻。此外，在注入到GC-MS的樣品的定量中，這種摻加化合物可用於校正樣品之間的變化，也就是說，可以相對於摻加劑的峰面積來使這些峰面積標準化。
當然，上面的討論主要是把多組分化學樣品的GC-MS譜項與生物學影響的可測定數值聯繫起來，而本發明中的方法可適用於更一般的情況。舉例來說，這些方法可用於檢測食物樣品的生物學或化學汙染，例如被諸如DSP、PSP、ASP、黃麴黴毒素和肉毒桿菌毒素之類的毒素汙染；或用於醫學樣品(例如淋巴液、血液、血清、血漿、尿液、粘液、精液、唾液、糞便或組織樣品)的分析，以檢測出各種情況例如細菌和病毒感染、與蛋白感染素關聯的疾病、諸如阿爾茨海默病、馬鞭式創傷(whiplash)等生理狀況，或者濫用藥品的情況(例如運動員使用違禁藥品或物質)。然而，這些方法一般用於可測定本徵與多個組分的一組「特徵」信號聯繫起來的任何系統。
本發明的方法尤其可用於醫學和法醫診斷。因此在一個實施例中，如果用身體組織或液體(例如血液、血漿或血清)做樣品，「本徵」可以是正常/健康或不正常/不健康，並且如果它們出現在特定的濃度範圍之外，那麼就可以鑑定出與異常或健康不佳的狀況相聯繫的組分。同樣，可以鑑定出與特定的異常或病狀相關聯的組分或幾組組分。在另一個實施例中，在人死後可對體液、組織或氣體進行分析，並且生成的預測值模型可用於確定死亡時間，例如謀殺的受害者的死亡時間。
同樣，這些方法也特別適用於對食品(例如奶酪)進行檢驗，以檢測出異常情況或汙染(化學或生物學)。
如果需要的話，本發明的方法可以擴展到用於鑑定樣品的一種或多種解析組分，這可以通過把組分的特徵數據(例如色譜分布曲線和/或質譜)與已知化合物(或其他組分)的相似特徵數據進行比較而得以實現，例如可參考化學品資料庫的計算機化資料庫。舉例來說，本發明的方法可用作一個粗過濾器，來鑑定可用於一個樣品(或者個人或試驗場地的多個樣品)的更特殊或更精確的診斷測試。這樣，無需進行全部有價值的診斷測試就可以發現問題。
從又一方面看，本發明還提供了一種計算機軟體產品(例如磁碟、磁帶、導線、存儲器或其他載體)，這種產品帶有一個用於執行本發明方法的電腦程式。
從另一方面看，本發明提供了一種設置有用於實施本發明方法的程序的計算機。
在附圖的圖2和圖3的流程圖中，示意性地圖解說明了按照本發明的程序操作。
參照圖2，其圖解說明了預測模型的構建過程。數據輸入(步驟I)包括載荷多個樣品的GC-MS數據和已測定的本徵值。數據簡化(步驟II)包括消除空白保留時間和消除背景(即鑑定出GC峰簇)，消除空白質量數和消除MS背景(即從每個GC峰簇的質譜中鑑定出幾組質譜峰)。分布曲線解析(步驟III)包括在這樣的GC峰簇中鑑定出各個組分的質譜，並且為每一個解析組分確定出GC分布曲線(峰保留時間和峰的面積)。預測模型製作(步驟IV)包括在不同樣品之間將解析組分的分布曲線進行比較，以鑑定出兩種或兩種以上樣品中共有的組分，並且進行回歸分析，為每一種解析組分提供表示該組分對測定本徵的影響的回歸係數，然後由所產生的預測值矩陣製作預測值模型。
參照圖3，其圖解說明了預測值模型的應用。數據輸入(步驟I)包括載荷樣品的GC-MS數據。數據簡化(步驟II)和分布曲線解析(步驟III)與在圖2中描述的一樣。數值預測(步驟IV)包括將預先計算好的預測模型應用到解析分布曲線中。很明顯，確定估算的本徵值時只會考慮那些在構建預測模型時用到的組分。
正如前面所提到的，預測模型不需要根據表示組分對本徵的貢獻的回歸係數進行推導，但預測模型可以反映出一種分類，即生/死、健康/不健康，所以，應用這個模型可以給出樣品來源的相應分類作為所估計的本徵值。
我們還可以看到，預測值矩陣可以用於在產生樣品預測值時進行的數據簡化；例如，在計算預測值矩陣時，可以把與已確定的低回歸係數值相對應的GC保留時間去掉。
我們可以看到，可用位於遠處的數據處理裝置來完成本發明的分析測試。因此，從另一方面來看，本發明提供了一種包含指令的電腦程式產品，該指令在數據處理裝置上實施時將預測選定多組分樣品的本徵值，其中電腦程式接收的數據是通過以下方式得到的A)沿一個分離量度分離樣品的多個組分；B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，在這裡，電腦程式執行如下步驟a)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質；b)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定出這些部分中的各個組分的特徵圖形和分類量度分布曲線；以及c)將預測模型施加到所述選定樣品中已確定的各個組分的分布曲線強度上，並由此對所述樣品的所述本徵值進行估算。
另一方面，本發明提供了一種包含指令的電腦程式產品，該指令在數據處理裝置上實施時，將分析選定的多組分樣品，以預測樣品的本徵值，其中電腦程式接收的數據是通過以下方式得到的
i)為多個相似的多組分樣品確定所述本徵值；ii)對每一種所述相似的樣品來說，a)沿一個分離量度分離樣品的各個組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，iii)對所述選定的樣品來說，A)沿一個分離量度分離樣品的各個組分，B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣在這裡，電腦程式執行如下步驟i)對每一種所述相似的樣品來說，a)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質；b)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定出所述部分中各個組分的特徵圖形和分離量度分布曲線；ii)將沿分離量度的確定圖形與其分布曲線的位置的進行比較，並由此鑑定出所述相似樣品中的類似組分；iii)將所述相似樣品中的組分的所述本徵值和確定分布曲線的強度進行比較，並由此生成預測樣品的所述本徵值的模型；iv)對所述選定樣品來說，A)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質；B)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定出這些部分中各個組分的特徵圖形和分離量度分布曲線；C)把所述模型施加到所述選定樣品中已確定的各個組分的分布曲線強度上，並由此對所述樣品的所述本徵值進行估算。
從另一方面看，本發明提供了一種包含指令的電腦程式產品，該指令在數據處理裝置上實施時，將產生用於預測多組分樣品的本徵值的預測模型，其中電腦程式接收的數據是通過以下方式得到的
i)為多個相似的多組分樣品確定所述本徵值；ii)對每一所述相似的樣品來說，a)沿一個分離量度分離樣品的各個組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，在這裡，電腦程式執行如下步驟i)對每一種所述相似的樣品來說，A)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質；B)為所述分離量度的各個部分選擇幾組所述圖形，並且從其中確定出所述部分中各個組分的特徵圖形和分離量度分布曲線；ii)將沿分離量度的確定圖與其分布曲線的位置進行比較，並由此鑑定出所述相似樣品中的類似組分；iii)將所述相似樣品中的組分的所述本徵值和確定的分布曲線強度進行比較，並由此產生預測樣品的所述本徵值的模型。
本發明可進一步擴展成一種包含指令的電腦程式產品，該指令在數據處理裝置上實施時將創建如上所述的電腦程式產品。
權利要求
1.一種分析選定的多組分樣品的方法，以預測其本徵值，該方法包括i)確定多個類似的多組分樣品的所述本徵值；ii)對每一種所述的相似樣品來說，a)沿一分離量度分離樣品的組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，c)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，d)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出所述部分的各個組分的特徵圖形和分離量度分布曲線；iii)將沿分離量度所確定的圖形與其分布曲線的位置進行比較，由此鑑定出所述相似樣品中的類似組分；iv)將所述類似樣品中的各個組分的所述本徵值與已確定的分布曲線強度進行比較，由此產生一個預測樣品的所述本徵值的模型；v)對所述的選定樣品來說，A)沿一分離量度分離樣品的組分，B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，C)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，D)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出這些部分的各個組分的特徵圖形和分離量度分布曲線，E)將所述模型施加到所述選定樣品中的各個組分的已確定分布曲線的強度上，由此對所述選定樣品的所述本徵值進行估算。
2.一種產生用於預測多組分樣品的本徵值的預測模型的方法，該方法包括i)確定出多個相似多組分樣品的所述本徵值；ii)對每一種所述的相似樣品來說，a)沿一分離量度分離樣品的組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，c)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，d)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出所述部分的各個組分的特徵圖形和分離量度分布曲線；iii)將沿分離量度所確定的圖形與其分布曲線的位置進行比較，由此鑑定出所述相似樣品中的類似組分；iv)將所述相似樣品中的各個組分的所述本徵值與已確定的分布曲線強度進行比較，由此產生一個預測樣品的所述本徵值的模型。
3.一種分析選定的多組分樣品的方法，以便預測其本徵值，該方法包括A)沿一分離量度分離樣品的組分，B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，C)為每一部分確定一個圖形，該圖形表徵該部分的單一或多組分的性質，D)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出這些部分中的各個組分的特徵圖形和分離量度分布曲線，E)將所述模型施加到所述選定樣品中各個組分的已確定的分布曲線的強度上，由此對所述選定樣品的所述本徵值進行估算。
4.根據權利要求1-3任一項所述的方法，其中所述樣品是包含多種不同化學或生物組分的組合物，所述樣品的分離應用色譜法是有效的。
5.根據權利要求4所述的方法，其中所述圖形為光譜圖。
6.根據權利要求4或5所述的方法，其中所述樣品是或取自體內組織或體液或分泌液，或者取自環境流體，其分離應用氣相色譜或液相色譜是有效的。
7.根據權利要求4、5或6所述的方法，其中所述圖形為質譜圖。
8.根據前述任一項權利要求所述方法，其中選擇所述圖形組，以便排除所述分離量度的獲得的採樣信號在預定水平之下的部分。
9.根據權利要求8所述的方法，其中只有所述分離量度的某些部分被排除，這些部分的採樣部分的信號級與沿分離量度的最接近峰的信號級之比小於0.1-0.4這個範圍。
10.根據權利要求9所述的方法，其中只有所述分離量度的某些部分被排除，這些部分的採樣部分的信號級與沿分離量度的接近峰值的信號級之比小於0.3。
11.根據前述任一項權利要求所述的方法，其中選擇所述圖形組，以便排除所述分離量度的某些部分，這些部分與已知或認為對所述本徵幾乎沒有或沒有任何影響的組分有關。
12.根據前述任一項權利要求所述的方法，其中對所述分離量度的所述選定的圖形組進行背景噪聲的校正。
13.根據權利要求5-12任一項所述的方法，其中排除所選定的這些圖形中的那些沒有包含任何信號或僅包含由於噪聲而產生的信號的光譜數據。
14.根據權利要求5-13任一項所述的方法，其中利用Gentle方法將獲得的光譜圖形解析成單波峰。
15.一種用於實施權利要求1-14任一項所述方法的計算機軟體產品。
16.一個為了實施權利要求1-14任一項所述的方法而編程的計算機。
17.一種包含指令的電腦程式產品，所述指令在數據處理裝置上實施時，將預測出選定的多組分樣品的本徵值，其中電腦程式接收的數據是通過以下方式得到的A)沿一個分離量度分離樣品的組分；B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，並且電腦程式執行以下步驟a)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質；b)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出這些部分中各個組分的特徵圖形和分離量度分布曲線；c)將預測模型施加到所述選定樣品中組分的已確定分布曲線強度上，並由此對所述樣品的所述本徵值進行估算。
18.一種包含指令的電腦程式產品，所述指令在數據處理裝置上實施時，將分析選定的多組分，以預測選定的多組分樣品的本徵值，其中電腦程式接收的數據是通過以下方式得到的i)確定多個相似的多組分樣品的所述本徵值；ii)對每一種所述相似的樣品來說，a)沿一個分離量度分離樣品的組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，iii)對所述選定的樣品來說，A)沿一個分離量度分離樣品的組分，B)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣其中電腦程式執行如下步驟i)對每一個所述相似的樣品來說，a)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，b)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出所述部分中各個組分的特徵圖形和分離量度分布曲線；ii)將沿分離量度的確定圖形與其分布曲線的位置進行比較，由此鑑定出所述相似樣品中的類似組分；iii)將所述相似樣品中的組分的所述本徵值和確定的分布曲線強度進行比較，由此產生一個預測樣品的所述本徵值的模型；iv)對所述選定的樣品來說，A)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，B)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出這些部分中各個組分的特徵圖形和分離量度分布曲線；C)將預測模型施加到所述選定樣品中的組分的已確定分布曲線的強度上，由此對所述樣品的所述本徵值進行估算。
19.一種包含指令的電腦程式產品，所述指令在數據處理裝置上實施時，將產生一個用於預測多組分樣品的本徵值的預測模型，其中電腦程式接收的數據是通過以下方式得到的i)確定多個相似的多組分樣品的所述本徵值；ii)對每一種所述相似的樣品來說，a)沿一個分離量度分離樣品的組分，b)在沿所述分離量度的多個位置上對樣品的多個部分進行採樣，其中電腦程式執行如下步驟i)對每一所述相似的樣品來說，A)確定每一部分的圖形，該圖形表徵該部分的單一或多組分的性質，B)為所述分離量度的各個部分選擇多組所述圖形，並且從其中確定出所述部分中各個組分的特徵圖形和分離量度分布曲線；ii)將沿分離量度的確定圖形與其分布曲線的位置進行比較，由此鑑定出所述相似樣品中的類似組分；iii)將所述相似樣品中的組分的所述本徵值與已確定的分布曲線強度進行比較，由此產生一個預測樣品的所述本徵值的模型。
20.一種包含指令的電腦程式產品，所述指令在數據處理裝置上實施時，將創建一個如權利要求15或17-19任一項所述的電腦程式產品或計算機軟體產品。
全文摘要
本申請描述了一種由二維(2D)分離數據(GC－MS)對複雜的多組分混合物的化學或生物學性質(諸如毒性、致突變性)進行預測的方法。利用自動曲線解析程序(GENTLE)把數據解析成各個組分的譜峰(C)和譜項(S)。隨後將已解析的峰值進行積分,並且把特徵面積、分離參數和締合譜圖合併成一個預測值矩陣(X),這個矩陣可用作多元回歸模型的輸入項。利用部分最小二乘法(PLS)將一組測試集的2D分離數據與已測過的性質聯繫起來。隨後,就可以用回歸模型預測其他樣品的性質。
文檔編號G06Q10/00GK1423749SQ0180697
公開日2003年6月11日申請日期2001年7月4日優先權日2000年7月4日
發明者奧拉夫·誇爾海姆, 比約·格龍申請人:模式識別系統控股有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

分析選定的多組分樣品的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法