新四季網

使用偏最小二乘分析(pls-樹)分級地組織數據的製作方法

2023-10-08 18:22:19

專利名稱:使用偏最小二乘分析(pls-樹)分級地組織數據的製作方法
技術領域:
本發明一般涉及大數據集的分析,尤其涉及使用簡稱為PLS-樹的偏最小二乘分 析分級地組織和分析數據。背景在許多工業中,在製造和研究、開發領域採集非常大的數據集。在半導體器件製造業內,器件製造者已設法依靠加工工具製造者設計出更好和/ 或更快的工藝和硬體配置而過渡至更精密公差的工藝和材料規格。然而,隨著器件幾何尺 寸縮至納米級別,製造工藝的複雜度增加,並且工藝和材料規格變得更加難以滿足。用於當前半導體製造的典型加工工具可以用一組幾千個工藝變量來描繪。這些變 量一般關聯於製造工藝的物理參數和/或用於製造工藝的工具。在一些情形下,幾千個變 量中的幾百個變量將是動態的(例如在製造過程中或多個製造過程之間隨時間而變化)。 諸如氣流、氣壓、輸出功率、電流、電壓和溫度的動態變量例如基於特定加工方法、加工步驟 總順序中的特定步驟或一系列步驟、製造工藝中發生的誤差和故障或基於使用特定工具或 腔室的參數值的改變(也稱為「漂移」)而變化。工藝變量頻繁地涉及產量或響應變量。工藝變量可認為是產量變量基於這些變量 間的潛在關係的預示或指標。在製造工藝中測量和存儲工藝和產量變量的數據指示,用於 實時分析或稍後分析。同樣,在製藥和生物技術產品中,例如美國食品和藥品署的管理機構要求製造工 藝遵循嚴密規範,使高質量產品在規定質量曲線周圍具有非常小的變動。這些規格需要在 線測量工藝變量和附加多維傳感器技術,例如工藝氣相色譜法、近紅外光譜法以及質譜法。 理想地,在製造工藝中測得的數據可用於實時分析,以提供關於工藝條件如何接近工藝標 準的指示或信息。在製藥和生物技術研究和研發中,許多不同的分子——通常幾萬或更多——在探 尋和優制新藥的過程中被研究。對每個分子要測量和/或計算許多不同的物理和生物特性 (例如可能的藥物候選性),並對每個分子計算許多理論上的結構關聯特徵。針對每個分子 確定的變量值總數經常超過幾千(例如超過2000個變量值)。一部分研發過程包括一方面 尋找生物特徵另一方面尋找物理、化學和理論計算出的結構關聯特徵之間的關係。對這些 關係的理解有助於研究人員修改有前途分子的化學結構以使其向具有改善的生物特徵曲 線的新分子轉變。在大數據集中,數據經常被編組在一起,從而導致群集的數據。為了對該數據進行 有意義的分析,同質或非編組的數據之間的比較是優選的。因此,算法已演化為將成編組的 信息群集成同質的子組。一種分析編組數據的方法是對數據使用線性回歸分析的變型(例如有時被稱為 「回歸樹」或「分級和遞歸樹」或「CART」)。回歸樹分析涉及基於各X變量或X變量組合的 一系列數據分割。數據可被分割的可能方法的數目隨著觀察到的變量數而快速增加。為此, 回歸樹通常適用於僅具有少量變量的數據集,並且回歸樹分析通常止於變量大於10-20個的數據集就中止,這部分因為計算開銷。基於回歸樹分析的結果,數據被編組成樹或分支組 織,有時被稱為樹狀圖。一種類型的分級數據群集基於主要組成分析(PCA)。這類技術包括對每個分級層 面將一數據集投射到PCA分析的第一主組成軸上。投射數據因此沿第一主組成軸單向地對 齊,並且該數據在第一主組成軸的中間位置附近被分割。這種分割或群集被遞歸地迭代,直 到群集元之間的最大距離超過預定(例如用戶定義的)閾值為止。如同CART分析,基於 PCA的分析對大數據集來說相對較慢。又一缺點是基於PCA的分析一般僅考慮X-變量而忽 略Y變量對所產生數據關係的影響。另一種技術涉及隨機二進位(0或1) Y矢量值,它將Y變量分成兩個隨機組。偏最 小二乘(PLS)算法使用單組成模型來預測新的Y變量,並且預測到的Y變量代替隨機Y變 量值。在分析收斂後,預測到的Y變量被圓整至最近的整數(或者0或者1),並且經圓整的 Y變量用來將數據分割成若干組。如同基於PCA的分析和CART分析,該方法只對X變量起 作用,儘管對內部計算應用了 PLS。這種技術的延伸通過建立多重(例如3、4或更多)分割 而不是二進位分割(0或1)建立架構而實現兩個以上的群集。神經網絡型分析是分析數據的另一種方法。然而,神經網絡型分析對於許多應用 而言尚無法足夠快地計算,並且當變量數目超過10-20時也存在困難。概述前述方法的缺陷包括在大量變量和變量組合中研究許多可行分割的計算密集性 和開銷。當變量數目適中或很大時(例如大於約20),回歸樹和神經網絡型分析遭遇到困難。本文描述的理念包括使用偏最小二乘(PLS)方法進行數據分析以及數據群集或 編組。使用偏最小二乘法分析數據以在迭代進程中將相對大的數據集分割成較小的子集 (也被稱為組或群集)。每次數據分割導致具有較高層內部同質性(例如群集中較小的變 化)和最大外部異質性(例如相對於其它群集具有更多變化)的組。用於數據分析和組織 的最小二乘法具有將大數據集分成相同觀察資料或數據點(例如關聯於工藝變量和產出 變量的數據點)的群集或組而沒有關聯於先前方法的計算密集性或開銷的優點。偏最小二 乘法還保持子集(群集)中的工藝變量和產出變量之間的關係,這有助於分析。偏最小二乘法可解決具有相對大量變量的數據集,包括超過10000個變量的數據 集。此外,當數據集包括多個共線變量或工藝變量和產出變量之間的關係時和/或由於檢 測器故障或數據存儲問題數據部分地從數據集中丟失的情形下,偏最小二乘法也可工作。 偏最小二乘法的另一優勢是計算機處理相當快速,利於相對快速計算和/或在圖表或曲線 圖上顯示分級組織的數據。使用偏最小二乘法的另一優點是Y變量(例如響應)影響群集和對群集的確定。 例如,Y變量可明確地用作確定是否和在何種情況下將數據分割成多個子組的的「分割標 準」或參數的一部分。另一優點是偏最小二乘法既可工作在二進位和連續Y變量下,又可工 作在一個或多個Y變量下。偏最小二乘分析是「自頂向下」方法,由於分析從整個數據集開 始並將數據相繼分成更小的組。自頂向下方法與自底朝上方法形成對照,所述自底朝上方 法從具有一個數據點的組開始並將這些組編入(2個數據點的組)直到全部觀察資料併入 一個數據群集。由於是否群集數據的判斷涉及監測觀察資料間距離(例如X變量之間的相似性)以及觀察資料-群集和群集-群集距離(例如同質性和異質性的相異點),自底朝上 方法往往計算開銷很大。本文所述方法的另一優勢是方法產生有用的結果,即便數據集或 觀察資料中存在丟失或噪聲數據。本發明的一些實施方式的特徵在於使用四分點的差異計
笪弁。基於偏最小二乘分析編組、分割或群集的優勢在於,PLS回歸模型的X得分作為分 割或編組標準的一部分,與X變量本身的值相對。當PLS方法應用於一對矩陣(即X變量 的X矩陣和Y變量的Y矩陣)時,結果是數據的劃分、編組或分割的序列。數據被逐行(例 如逐觀察資料)地分割成由PLS模型表示的樹結構或樹形圖。樹形圖中的每個節點代表特 定編組或群集中的數據的PLS模型。總的來說,為了將一個數據集或群集分成兩個(或更多個),確定某個分割值或位 置。例如,針對第一矩陣(X矩陣)中的X變量計算第一得分tl,並根據得分tl分類群集的 觀察資料。然後基於若干因數加權組合的改進而確定分割的位置,所述因數包括(a)x矩陣 的方差、(b) Y矩陣的方差和(c)關聯於每個後繼數據集中的觀察資料數量的函數(例如補 償函數)。可將該函數認為是不鼓勵將數據集分割成具有本質上不等或不平衡量的數據的 兩個子組的因數。在一些實施例中,子組的互相證實用來終止樹形圖的分支(例如由此確 定不需要進一步的子組)。在一些實施例中,用戶指定PLS樹中的最大層數,其一般值為4 或5。偏最小二乘法可應用於多個數據集。例如,本文描述理念的試驗已在工藝數據、定 量結構活動關係(QSAR)數據集以及超能譜圖像數據上進行過。總的來說,在一個方面,這裡提供一種在相對短的處理時間內分割大量數據的計 算機應用方法和系統。該方法包括提供第一數據矩陣和第二數據矩陣。第一和第二數據矩 陣中的每一個包括一個或多個變量(例如矩陣列)和多個數據點(例如矩陣行)。該方法 包括使用偏最小二乘(PLS)分析或正交PLS (OPLS)分析從第一數據矩陣確定第一得分,並 基於第一數據矩陣的第一得分、第一數據矩陣的方差以及第一和第二組中方差相對於第一 和第二數據矩陣方差的關係將第一和第二數據矩陣分割成第一數據組和第二數據組。在一 個實施例中,第一和第二數據矩陣中的每一個均包括一個或多個矩陣列和多個矩陣行。在一些實施例中,分割包括逐行分割第一和第二數據矩陣。分割還可包括最小化 第一 PLS或OPLS得分的方差和第二數據矩陣的方差之間的關係的參數表徵。分割可包括 最大化第一和第二數據組之間的統計差,其中該統計差是基於第一數據矩陣的第一 PLS或 OPLS得分的方差、每個組的第二數據矩陣的方差以及關聯於分割後殘留在(例如大小平衡 的)第一和第二組中的數據矩陣的大小的函數計算出的。在一些實施例中,分割包括最小 化第一數據矩陣的第一得分的方差、第一和第二數據組每一個中的第二數據矩陣的方差以 及關聯於分割後殘留在(例如大小平衡的)第一和第二組中的數據的函數。在一些實施例 中,當PLS樹中的層數達到用戶指定的最大數時,分割結束。第一數據矩陣可包含表徵來自例如半導體或製藥和/或生物技術製造工藝的工 藝數據的數據。此外,第一數據矩陣可包含作為關聯於或表述例如在製藥或生物技術研發 中藥品研發項目中研究的分子或大分子的感興趣分子或大分子的結構變化的測得和/或 計算數據表徵的數據。第二數據矩陣可包含表徵工藝產出和/或質量數據或其組合的數 據。又如,第二數據矩陣可包含表徵同分子或大分子的生物數據的數據。
在一些實施例中,第一數據組包括第三數據矩陣和第四數據矩陣,它們各自來自 將第一和第二數據矩陣逐行分割成第一和第二數據組。這些實施例包括使用第二偏最小二 乘(PLS)分析或第三和第四數據矩陣的OPLS分析從第三數據矩陣確定第二得分並基於該 第二得分、第三數據矩陣的方差以及第三和第四組中的方差相對於第三和第四數據矩陣方 差的關係分割(例如逐行分割)第三和第四數據矩陣。第二數據組可包括第五數據矩陣和 第六數據矩陣,而在這些實施例中,該方法還包括在第二數據組包括大於數據點閾值數時 使用第三偏最小二乘(PLS)分析或OPLS分析從第五矩陣確定第三得分並基於該第三得分、 第五數據矩陣的方差以及第五和第六組的方差相對於第五和第六數據矩陣方差的關係逐 行地分割第五和第六數據矩陣。一些實施例包括分級地顯示第一、第二、第三、第四、第五或第六數據組。該方法還 包括當該組包括小於數據點閾值數時終止數據組的分割。該方法還可包括當第二得分和第 二數據矩陣的組合方差在將數據組分割成子組時不減小的情況下終止數據組的分割。在一 些實施例中,該方法包括當與第一和第二數據矩陣關聯的之前分割的次數等於或超過預定 閾值時終止第二組的分割。預定閾值可以是代表樹形圖中最大分層數的極限值。在一些實施例中,該方法包括在顯示第一數據矩陣和第二數據矩陣的圖表上標識 第一數據組或第二數據組。在一些實施例中,用戶規定PLS樹中的最大層數,其典型值為4 或5。總的來說,在另一方面,提供一種有形地表現在信息載體中的電腦程式產品,該 電腦程式產品包括可操作成使數據處理裝置執行多個步驟的指令。例如,這些步驟可包 括接收第一數據矩陣和第二數據矩陣,其中第一和第二數據矩陣中的每一個包括一個或 多個數據點;使用第一和第二數據矩陣的偏最小二乘(PLS)分析或OPLS分析從第一數據矩 陣確定第一得分;以及基於第一數據矩陣的第一得分、第一數據矩陣的方差以及第一和第 二數據組的方差相對於第一和第二數據矩陣的方差的關係逐行地分割第一和第二數據矩 陣。這些方差在某些場合下由最先幾個組成部分各自的PLS得分的方差表示。在又一方面,提供一種分級地組織數據的系統。該系統包括存儲器。該存儲器包 括具有第一數據矩陣和第二數據矩陣的數據結構。該系統還包括可操作地耦合於存儲器的 處理器。該處理器包括部分地基於第一數據矩陣的偏最小二乘分析或OPLS分析確定第一 得分的模塊以及(例如逐行地)分割第一和第二數據矩陣以產生第一組和第二組的模塊。 分割部分地基於第一數據矩陣的第一得分、第一數據矩陣的方差以及第一和第二組方差相 對於第一和第二數據矩陣方差的關係。該系統還包括可工作地耦合於處理器以顯示第一和 第二數據組以及第一和第二數據組與第一和第二數據矩陣的關係的顯示器。在另一方面,有一個分析數據的系統。該系統包括從存儲器檢索第一數據矩陣和 第二數據矩陣(例如數據結構)的數據檢索裝置。第一和第二數據矩陣中的每一個包括一 個或多個數據點。該系統包括使用偏最小二乘(PLS)分析或OPLS分析從第一數據矩陣確 定第一得分的數據分析裝置。系統還包括數據分割裝置以基於第一矩陣的第一得分、第一 數據矩陣的方差以及第一和第二組的方差相對於第一和第二數據矩陣方差的關係將第一 和第二數據矩陣分成第一數據組和第二數據組。一些實現方式包括以任意上述實施例或其優點為特徵的任意前述方面。這些和其它特徵將參照下列說明和附圖更充分地得以理解,附圖是示意圖並不一
7定按比例繪製。儘管本文描述的理念針對製造工藝,尤其是半導體、製藥或生物技術製造工 藝,然而本領域內技術人員很清楚,這些理念具有額外的應用,例如數據提煉應用、金融數 據分析應用或包含大量數據點或觀察資料的其它應用。附圖簡述前述和其它目的、特徵和優勢將從下文對實施例的更具體說明中變得明顯,參照 附圖,其中相同附圖標記在不同附圖中表示相同的部件。附圖不一定按比例繪出,而是將重 點放在突出實施例的原理。圖IA是表述測得數據的圖表。圖IB是示出數據分割前後表示在圖IA圖表上的數據的方框圖。圖2是用於分級地組織和顯示數據的數據處理系統的方框圖。圖3是使用偏最小二乘分析分析數據的方法的流程圖。圖4是表示在偏最小二乘樹分析後分級組織的數據的分類樹。圖5是用於顯示數據的示例性用戶界面。圖6是示出使用近似值搜索的示例算法的流程圖。詳細說明圖IA是示出測得數據105的圖表100。數據105在圖表100上表示為多個數據 點110。每個數據點110代表在製造工藝或某些其它測量或監測工藝中採集或測得的數據。 數據點110有時被稱為「觀察資料」。圖表100包括第一軸115和垂直於第一軸115的第二 軸120。軸115和120可代表工藝變量(有時稱其為可觀察或預測變量)或產出變量(有 時稱其為結果或預測變量)。在一些實施例中,這些軸115、120被稱為X軸。軸115、120被 稱為Y軸。在一些實施例中,第一軸115和第二軸120的單位是無量綱的或縮放的。在一 些實施例中,圖表100在X-X空間或Y-Y空間內描述數據105,而圖表100可描述一個或多 個數據矩陣在平面(或低維數表面)內的投影。這些軸可由數據矩陣中的變量定義。在一些實施例中,數據點110是代表工藝數據和相應產出數據(例如在測量工藝 數據期間批量的產出數據)的有序數據對部分。在一些實施例中,數據點110表示一個或 多個數據矩陣中的表項。例如,工藝數據可以是也被稱為X矩陣的第一數據矩陣中的表項。 X矩陣可以是包含N行(也稱觀察資料)和K列(也稱變量)的NXK矩陣。產出數據可以 是也被稱為Y矩陣的第二數據矩陣中的表項。Y矩陣可以是包含N行和M列的NXM矩陣。圖表100可包括至少10000個數據點,在某些情況下明顯超出10000個數據點。在 一些實施例中,第一數據矩陣和/或第二數據矩陣中的數據在顯示在圖表100前被預處理。 例如,在創建或顯示圖表100前,從存儲器檢索第一數據矩陣和第二數據矩陣,並通過預處 理算法(未示出)變換、居中和/或縮放矩陣中的數據。在一些實施例中,預處理關聯於第一或第二數據矩陣中的數據統計分析。例如,用 戶(計算機或人)可指定一組縮放參數在產生圖表100前施加於數據。可使用縮放文件指 定適合縮放參數的特定值。縮放有時被表示為數據在用於之後的處理或建模前的一種預操 作或預處理。數據矩陣中的觀察資料和變量的測得值經常具有本質上不同的數值範圍,這 導致數據中大的統計方差。偏最小二乘分析一般被認為是最大協方差投影方法。結果,大 方差的變量或數據可能比相對低方差的變量更為醒目地表現在圖表100上。當相對大方差 的變量沿第一軸115(例如X軸)以散布圖繪製而相對小方差的變量沿第二軸120按相同比例以散布圖繪製時,大方差變量的擴展將支配小方差變量的擴展。作為補救,可縮放兩變 量的數據(和軸)。縮放變量允許這兩個變量對特定數據模型作出貢獻。為了給出相對或近似等權重的兩個軸115、120,數據值被標準化、縮放或加權。這 有助於X矩陣表項和Y矩陣表項(或變量)兩者近乎等量地對模型作出貢獻。縮放處理包 括根據預定標準(例如對每個坐標軸的長度設定同一方差)在變量空間內調整坐標軸長 度。用於縮放數據的常見技術被稱為「單位方差」即「UV」縮放或「自動縮放」。單位方差縮 放包括計算數據集中特定變量的標準差(例如O)。縮放權重被計算為標準差的倒數(例 如W= I/O)。每個變量值與縮放權重相乘以確定經縮放的變量。在數據矩陣中的全部變 量被縮放後,每個坐標軸115、120具有單位方差。在一些實施例中,用戶可能想要評價特定變量(例如噪聲變量或不相干變量)或 增加某些變量對圖表100的貢獻。用戶可修正縮放權重(例如由此縮放方差)以為特定數 據集達成這個目的。另外,變量的變換經常給予變量更為對稱的分布。例如,可使用對數變 換、負對數縮放、分對數縮放、平方根縮放、四次方根縮放、倒數縮放或冪變換縮放。同樣,矩陣中的數據可居中在除縮放坐標系原點0外的點(未示出)周圍。這時, 可根據需要將居中值加上各矩陣列或與之相減以使矩陣元居中在其它點周圍。居中和縮放 均可減小產生圖表100和/或數據偏最小二乘分析的計算要求。居中和縮放還有利於數據 解釋和結果參數或解釋性模型的使用。當第一和第二矩陣中的數據已被輸入和/或居中、變換或縮放時,對數據應用偏 最小二乘算法以確定ti得分。在一些實施例中,偏最小二乘算法基於數據的正交偏最小二 乘分析,而tl得分基於數據的這種OPLS分析。tl得分對應於(例如圖表100上的)X空間 中接近數據分集的一條線並關聯於第二矩陣中的該數據。沿偏最小二乘分量的坐標為特定 數據點或觀察資料定義或確定tl得分。X空間中的累積觀察資料的tl得分定義或確定tl 得分矢量,可將其認為是新的變量。tl得分代表圖表100上的直線125 (例如各tl得分的累計或tl得分矢量的表 徵)。垂直於tl得分(例如直線125)的直線145用來將圖表100劃分或分割成兩部分 130、135。部分135代表在直線145下方的觀察資料或數據點,而部分130代表在直線145 上方的觀察資料或數據點。圖表100上的數據105按tl得分矢量(例如直線125)分類。 沿直線125對每個tl得分進行計算。在已確定tl得分矢量後,直線125上的點(例如沿直線145)的每個分割值通過 等式1評價u = (1-b) * {a[V Ul1) +V (tl2) ] /V (tl) + (1-a) [V (y 1) +V (y2) ] /V (y)} +b*F (H1, n2)等式1其中u =被最小化的參數;a =用戶可調的參數,一般在0和1之間;b =用戶可調的參數,一般在0和1之間;V =特定矩陣或矢量中的方差;tli =直線125上第i個坐標,例如第i個觀察資料的tl得分值;y, = Y矩陣中第i行,例如第i個觀察資料的Y矢量;
H1 =子組1中的數據點或觀察資料的數目(例如在部分130中);n2 =子組2中的數據點或觀察資料的數目(例如在部分135中);以及F =與Ii1和Ii2關聯的函數,該函數用來鼓勵將數據分割成對Ii1和n2具有近似相 同值的子組。等式1可定性地視為是X矩陣中的方差(例如tl得分)、Y矩陣中的方差以及每 個潛在的子組或子分割中的數據量之間的關係。一般通過X得分tl的方差、Y矩陣的方差 以及與每個相繼子組中的數據量關聯的函數(FOvn2))的組合的總體改進而使「U」值最小 化(因而也按tl得分使分割優化)。例如,函數Ffc1,n2)可視為鼓勵每個得到的子組中近 乎相等數量的觀察資料(例如X變量)的補償函數。在一些實施例中,函數Ffc1, n2)通過 等式2給出F =等式 2其它補償函數對本領域內技術人員來說是顯而易見的。在一些實施例中,用戶可 調參數α關聯於得分tl和Y變量。例如,如果α值更接近0,則將更多權重分配給得分 tl。如果α值更接近1,則將更多權重分配給Y變量。用戶可調參數b關聯於子組的大小。 例如,如果b的值更接近0,則分割不大可能在分割後產生基本相等大小的子組。如果b的 值更接近1,則分割更可能在分割後產生基本相等大小的子組。在一些實施例中,參數α的 默認值是0. 3且參數b的默認值也是0. 3。參數a和b的其它默認值也是可行的。在一些實施例中,參數b的值可以為0。在這些實施例中,補償函數F不影響要被 最小化的參數U。具體地說,補償函數F不用來鼓勵或影響各子組中的數據量。在一些實施 例中,參數a的值可以為0。在這些實施例中,等式1與分類和回歸樹(CART)分析相似,不 過分割是基於PLS得分而不是X變量值本身。在一些實施例中,參數Iimin可指定為例如當參數b的值接近0或相對小時防止等 式1的解得出各自包含相對小數量數據的相對高數量的群集或組的邊界條件或參數。參數 nmin可用函數式表示為rimin = min Oi1, n2)。Nmin的一例值為5。其它nmin的值也是可能的並 且是用戶選擇的。在一些實施例中,分級層的數目(且隱含地是子組或群集的數目)可由 用戶確定或選擇。例如,用戶可選擇四(5)或五(5)個分級層。在用戶尚未選擇一定數量 的分級層的情形下,可指定一默認值(例如4個分級層)。直線125上的坐標140被確定和/或定位成使等式1中的參數「U」的值最小。通 過最小化參數「U」,數據105根據第二矩陣(Y矩陣)中的tl得分(或tl得分矢量)和方 差被分割。在交叉坐標140處垂直於直線125的直線145被確定和示出在圖表100上。直 線145將圖表分成部分130和部分135。部分130包括在直線145之上的數據105,而部分 135包括在直線145之下的數據105。部分130包括第數據集,而部分135包括第二數據集。 作為最小化等式1的結果,通過特定值tl的選擇,最小化(i)第一數據集中的得分tl的方 差和第一組的第二矩陣的方差以及(ii)第二數據集中的得分tl的方差和第二組的第二矩 陣的方差的組合。最小化組合等同於相對變量tl和Y最大化第一數據集和第二數據集之 間的組合方差。在圖表100被分成部分130、135後,可使用相似的過程來分析各部分130、135中 的數據。例如,部分135中的數據點110可視為第三數據矩陣Xl (例如包括部分135中的
10數據105的X矩陣值)和第四數據矩陣Yl (例如包括部分135中的數據105的Y矩陣值)。 可以類似於上文所述的方式(但僅基於部分135中的數據)從第三數據矩陣確定第二 tl 得分。部分135可基於第二 tl得分沿第二直線(未示出)劃分和分割。在已確定第二 tl 得分後,可針對第二 tl得分和第四數據矩陣(例如Y矩陣)中的方差最小化等式1,以進一 步將部分135沿第二垂直線(未示出)分成第一和第二子組(未示出)。然後可進行部分130(組2)的類似分析以將部分130中的數據分割成若干子組。可對每個連續子組繼續上述過程,直到圖表100上的所有數據105已被分析或編 組成越來越小的群集(子組)的階層結構。在一些實施例中,當子組包含少於數據點閾值 數或當進一步分割數據不導致tl得分矢量中相對較小的方差或Y矩陣中的方差時,針對特 定子組的分割過程終止。數據點的閾值數可以是用戶選擇的,例如為5個數據點。在一些實施例中,群集幾何學的檢查提議,該群集或子組沿不平行於第一得分矢 量tl的方向取向。當子組不平行於第一得分矢量tl取向時,可使用得分矢量的組合(例 如兩個、三個或更多個得分矢量組合)。在一些實施例中,為了組合得分矢量,可引入第三參 數C。第三參數c通常具有在-1和+1之間的值。第三參數C將第一得分tl關聯於第二得 分t2。得分矢量tl和t2之間適當關係的例子使用參數c表示如下{c*t2+(l-1 c I) *tl}。 本領域內技術人員將清楚知道其它關係。參數c和得分矢量tl、t2之間的關係導致在由得 分矢量tl和t2界定的平面內表徵的數據分析,而不是僅沿第一得分矢量tl或第二得分矢 量t20—些實現方式允許用戶減少正在分析的變量數(例如有時稱其為數據選擇或預 處理)。例如,某些變量可強烈地關聯於模型中的最佳預測變量或不關聯於Y變量(例如結 果變量)。數據選擇的一個例子包括將數據參數(例如X變量)與預定值相比。例如,在分 析前將表現出與Y的關聯度小於預定百分比(例如75% )的變量從數據集中剔除。圖IB是示出在數據分割前後在圖IA的圖表100上表示的數據的方框

圖160。方 框圖160包括第一數據矩陣164 (表示為X)和第二數據矩陣168 (表示為Y)。每個數據矩 陣164、168可包括一個或多個列(也稱為變量)以及多個行(也稱為觀察資料)。在一些 實施例中,第一數據矩陣164包括工藝數據,而第二數據矩陣168包括產出數據和/或產品 質量數據。在其它實施例中,第一數據矩陣164包括測得和計算出的理化和/或結構關聯 的數據,而第二數據矩陣168包括關聯於一組分子或大分子的生物數據。方框圖160還包括劃分第一和第二數據矩陣164、168的分割線172。一旦分割第一 數據矩陣164,第一數據矩陣164的一部分176a就成為第一數據組184的一部分180a (表 示為X1)。同樣,一旦分割,第二數據矩陣168的一部分188a成為第一數據組184的一部 分180b (表示為Y1)。一旦分割第一數據矩陣164,第一數據矩陣164的一部分176b成為 第二數據組196的一部分192a (表示為X2)。同樣,一旦分割,第二數據矩陣168的第二部 分188b成為第二數據組196的一部分192b (表示為Y2)。因此,後繼的分割以與第一數據 組184的第一部分ISOa(X1)和部分ISOb(Y1)表徵第一數據矩陣164和第二數據矩陣168 相同的方式繼續。第二數據組196可以相同方式分割。在一些實施例中,分割是根據第一觀察資料的得分和第二數據矩陣164、168的方 差的逐行分割。也可使用其它分割技術。在一些實施例中,當特定數據組(例如數據組184) 不超出數據點的閾值數時,例如如果觀察資料的數目過小,分割中止或終止。數據點的閾值
11數可通過用戶設定或確定。在一些實施例中,當X矩陣(tl)和Y矩陣的第一得分矢量中的 方差不因分割而減小時,數據組的分割終止。可比較這些方差(例如作為[Vl+V2]/V之比 或分數,有時稱其為來自等式1的變量)。當u大於或等於1時,矩陣中源自分割過程的方 差等於或大於源自之前數據組的方差,則分割終止。當u小於1時,矩陣中源自分割過程的 方差小於之前數據組的方差,則分割繼續直到u大於或等於1為止。圖2是分級組織和顯示數據的數據處理系統200的方框圖。數據處理系統200包 括耦合於處理器210的存儲器205。數據處理系統200還包括耦合於處理器210的顯示器 215。數據處理系統200還包括未示出的其它組件或模塊,例如測量、採集和將數據存儲在 存儲器205中的數據獲取模塊或根據多變量靜態分析基於所採集數據建模的建模模塊。數 據處理系統200可位於製造設備中以實現就地和/或實時分析或後處理分析或數據提煉應 用。存儲器205包括例如代表製造工藝的數據,例如關於工藝變量(X矩陣數據)和產 出變量(Y矩陣數據)的數據。該數據可存儲作為原始數據、作為數據模型或模板或作為經 預處理的數據(例如在縮放、居中和/或變換後)。處理器210包括與存儲器205通信的數據檢索模塊220。數據檢索模塊220從存 儲器205檢索數據以供分析。處理器210還包括數據分析模塊225和數據分割模塊230。 數據分析模塊225與數據檢索模塊220和數據分割模塊230通信。數據分割模塊230與數 據檢索模塊205通信。數據檢索模塊205與顯示器215通信以便將經檢索的數據顯示給用 戶(例如作為圖1的圖表100上的數據點110)。數據分割模塊230和數據分析模塊225也 與顯示器215通信,以便將數據顯示給用戶。在數據檢索模塊220已從存儲器205檢索到特定數據集後,數據分析模塊對所檢 索的數據(例如在第一 X和Y矩陣上)執行偏最小二乘分析(PLS)或正交PLS分析(OPLS) 以確定第一 tl得分。如上所述,tl得分是X空間中形成子分割所檢索的數據的基礎的直 線表徵。數據分析模塊225與顯示器215通信以便將經分析的數據顯示給用戶(例如作為 圖1的圖表100上的直線125)。當數據分析模塊225已確定tl得分時,數據分割模塊230針對X矩陣和Y矩陣 (例如第一和第二數據矩陣)分析tl得分以確定使所分割組內的方差最小化並使所分割組 之間的方差最大化的tl值。數據分割模塊230與顯示器215通信以便將經分割的組顯示 給用戶(例如作為圖1的圖表100上的直線145和部分130、135)。在一些實施例中,數據檢索模塊220、數據分析模塊225和數據分割模塊230中的 一個或多個是同一應用、進程或程序的子例程或子算法。在一些實施例中,數據分析模塊 225和數據分割模塊230是同一子例程或算法的一部分。顯示器215可包括用戶輸入裝置(未示出),例如鍵盤或滑鼠,其允許用戶向處理 器210指定參數或發布指令。在一些實施例中,顯示器包括用戶界面以利於用戶和處理器 210之間的通信。例如,用戶可通過用戶界面指定來自上面等式1的參數「a」和「b」的值, 或用戶可向處理器210發布指導數據檢索模塊220從存儲器205檢索指定數據集以供分析 的指令。附加地,用戶可在從存儲器205檢索數據前後通過預處理模塊(未示出)指定縮 放、變換或居中數據以預處理數據。在用戶是另一計算機系統或處理器(未示出)的實施 例中,用戶界面可以是用於對系統200指定關於存儲器205中的數據的參數以及處理器210如何處理該數據的機器_機器界面。體現本發明各個特徵和方面的商業產品的一個例子是由瑞典Umea的Umetrics公 司出售的第12版SIMCA-P+ 軟體產品。圖3是示出使用偏最小二乘分析法以分析數據的方法的流程圖300。步驟304包 括檢索要分析的數據。所檢索出的數據可以是矩陣形式或某些其它形式或結構(例如上面 結合圖1A-1B描述的第一和第二數據矩陣)。在一些實施例中,從存儲器(例如計算機化的 存儲器)檢索數據。步驟304也發生在流程圖300所示方法已結束後。例如,步驟304可 表示在已如前所述參照圖1A-1B分割成第一和第二組的數據處理的後繼或迭代系列中的 第一步驟。步驟304可包括在流程圖300中的方法發生的同時從存儲在陣列或暫存存儲器 中的數據中檢索數據。在步驟304中檢索數據後,在可選步驟308中可對數據進行預處理。預處理數據 包括如上所述地變換、居中和/或縮放檢索到的數據矩陣中的數據。在一些實施例中,預處 理響應用戶的技術要求(包括諸如縮放權重、閾值的預處理參數或響應特定迭代)而發生。 在一些實施例中,用戶指定預處理按默認值或之前選擇的值而發生。數據是否預處理可以 是在方法的最初設置階段由用戶指定的默認設置。步驟306示出與預處理步驟308是否完 成關聯的判斷步驟。在數據已被預處理之後(步驟308),可在步驟312選擇偏最小二乘分析或正交偏 最小二乘分析。偏最小二乘分析的類型可由用戶指定或可以是默認設置。如果已選擇偏最 小二乘分析(步驟316),則使用PLS分析確定第一 tl得分(步驟324)。如果選擇了正交 偏最小二乘(OPLS)分析(步驟320),則使用正交偏最小二乘分析確定第一 tl得分(步驟 324)。第一 tl得分可由第一和第二數據矩陣定義的空間或坐標系(例如X-Y空間)中的 直線或某些其它曲線來表示。在一些實施例中,使用了 PLS和OPLS分析兩者。在步驟324確定了 tl得分之後,分類過程發生(步驟328)。之後發生分割過程 (步驟332),將第一和第二數據矩陣分割成兩個部分(部分1和部分2)。部分1和部分2 可以是數據的臨時子組,供進一步處理和分析以確定部分1和2中的數據值是否最小化將 tl得分值與第一和第二數據矩陣中的方差相關的參數。在已將第一和第二數據矩陣分割 成部分1和2後(步驟332),通過上述等式1評價這種分割(步驟336)。在步驟340,檢 索來自上面等式1的參數「a」和「b」。在一些實施例中,參數「a」和「b」是由用戶選擇的。 在步驟344,處理器使用沿由tl得分(步驟340)和參數「a」和「b」表徵的直線的值分析 等式1以評價部分1和2是否使參數「U」的值最小化。如果部分1和2不使「U」的值最小 化,則處理器繼續評價沿tl直線(例如得分矢量)的值。處理器標識使參數「U」的值最小 化的一個或多個值(步驟348)。選擇使來自等式1的「U」值最小的tl得分的值,並用組1 和組2代替(步驟348)部分1和部分2 (步驟332)。由於在步驟344-348中使參數「U」的值最小化,因此基於等式1針對參數「a」和 「b」的特定值,組1和組2各自具有tl得分、X矩陣數據和Y矩陣數據的最小組內方差以及 tl得分、X矩陣數據和Y矩陣數據的最大組間方差。組1和組2包含來自步驟304檢索出 的第一和第二數據矩陣的數據子集。組1可認為包含第三數據矩陣(例如包含來自分入組 1的第一X矩陣的值的X矩陣)和第四數據矩陣(例如包含來自分入組1的第一Y矩陣的 值的Y矩陣),如圖IB所示。同樣,組2可包括含X矩陣和Y矩陣的兩個數據矩陣,這兩個
13矩陣包括在步驟304檢索出的值,如圖IB所示。在步驟352中,評價組1和組2中的數據點數目以及參數「U」的值。如果組1中 數據點的數目η小於數據點的閾值數11_或如果「U」值超過預定值(例如1),則組1(或組 2)終止(步驟360)(例如沒有組的進一步分割發生)。如果η等於或超出組1 (或組2)的 nlWt,並且「U」值小於預定值(例如1),則方法進至詢問步驟356。在步驟356,評價分級層 或層面的數目並將其與規定限值比較。如果分級層數小於該限值,則方法返回到步驟304 並將組1中的數據矩陣作為數據(例如在步驟316、320對其執行偏最小二乘或正交偏最小 二乘分析的數據矩陣)開始處理。當分級層的數目等於該限值時,過程終止(步驟360)。 此後以與組1相同的方式處理組2。流程圖300中的方法被迭代,直至達到任一指定的最大 PLS樹層數或組分割已終止且沒有組包括超過數據點的閾值數η閾值為止。在一些實施例 中,樹層數目的限值η _和/或「 u 」值的限值是由用戶指定的。圖4是表述在偏最小二乘(或0PLS)樹分析後分級組織的數據的分類樹400。分 類樹400包括含第一數據集408的第一分級層404。第一分級層404可以是在後繼處理髮 生前從存儲器檢索出(或分級頂層)的數據的指示。在一些實施例中,第一分級層404是已 被事先處理的數據的指示(例如第一數據集408表示已被分割的子組)。第一數據集408 包括例如圖IB所示的第一數據矩陣(例如X矩陣)和第二數據矩陣(例如Y矩陣)。分類樹400還包括第二分級層412。第二分級層412包括數據的第一組416和第 二組420。數據的第一組416和第二組420是根據圖3的流程圖300表述並如圖IB所示 的方法確定的。例如,第一組416和第二組420是通過最小化等式1中的參數「U」標識的, 參數「U」可基於第一數據集408的第一數據矩陣的第一 tl得分和第一數據集408的第二 矩陣的方差確定。對於第一 tl得分和Y矩陣,第一組416關於或相對於第二組420擁有最 小內部方差和最大方差。第一組416例如圖IB所示地包括來自第一數據矩陣的X矩陣值 和Y矩陣值。第二組420基於例如圖IB所示的分割包括來自第一數據矩陣的不同的X矩 陣值和Y矩陣值。分類樹400包括第三分級層424。第三分級層424包括數據的第一子組428、第二 子組432、第三子組436以及第四子組440。第一子組428和第二子組432是以類似於如 何從第一數據集408確定第一組416的方式確定的(例如上面針對圖IB和圖3描述的那 樣)。更具體地,基於偏最小二乘(或0PLS)分析從數據的第一組416中的數據計算出第二 tl得分。第二 tl得分連同X矩陣和Y矩陣中的方差一起用來對第一組416中的數據按等 式1最小化的參數「U」。當參數「U」被最小化時,產生第一子組428和第二子組432。第三 子組436和第四子組440同樣是使用基於第二組420的偏最小二乘分析計算出的第三tl 得分基於第二組420中的數據確定的。分類樹400包括第四分級層444。第四分級層444包括從第三分級層424的第一 子組428確定的第一亞子組448和第二亞子組452。由於第二子組432的嘗試子組中的數 據點數目不超出繼續分析的數據點(也稱分支)的閾值水平或包含超出1.0的參數u的值, 因此第二子組432沒有出現在第四分級層444中。第四分級層444還包括以與第一亞子組 448和第二亞子組452相同方式確定的附加亞子組456a、456b、456c、456d。要理解,每個分級層404、412、424和444均是表徵來自直接上一分級層的數據 (例如第一數據矩陣和第二數據矩陣)。例如,在第一分級層404中(例如在數據集408中)存在由第二分級層412表徵的數據矩陣,但處於未分級、未分類形式。分類樹400中的每個 「分支」460代表使用偏最小二乘(或0PLS)分析(例如根據圖3的流程圖)分類或分割數 據的過程。分支460表徵圖IB的方框圖160。如圖所示,每個數據組和前一分級層之間沿 圖4中y軸的距離大約是相同的(例如亞子組448和子組428之間沿y軸的距離近似等於 亞子組456c和子組440之間的距離)。在一些實施例中,不同分級層上各數據組之間的距 離不同(例如組416和子組428、432之間沿y軸的距離可不同於組420和子組436、440之 間沿1軸的距離)。在一些場合下,y軸代表關聯於分割成子組的tl得分。圖5是用於顯示數據的示例性用戶界面500。用戶界面500包括第一顯示部分 504、第二顯示部分508和第三顯示部分512。第一顯示部分504包括圖1的圖表100。第二 顯示部分508包括圖4的分類樹400。第一顯示部分504和第二顯示部分508允許用戶快 速和/或直觀地將來自分類樹400的數據關聯於圖表100上的相應數據。例如,如果用戶 對包含在分類樹400的第一亞子組448中的數據感興趣,用戶可在第二顯示部分508中選 擇來自分類樹400的亞子組448。所選擇的亞子組448在第二顯示部分508中用橢圓516 或其它圖形指示手段突出表示。相應橢圓520或其它圖形指示(例如突出顯示)出現在第 一顯示部分504的圖表100中。橢圓520或其它圖形指示用來指示出現在第一亞子組448 中的數據。在一些實施例中,亞子組448中的數據不被緊密群集或不便由橢圓520或其它 圖形指示來標識。在這些實施例中,圖表100中的數據可以不同方式表示(例如通過顏色 或突出顯示或通過直線或擬合曲線)。同樣,圖4的分類樹400的其它分級層可由用戶選擇並顯示在第一顯示部分504 中。要理解,可將附加信息呈現在第一顯示部分504的圖表100中。例如圖所示,圖表100 包括直線125 (對應於第一分級層404的tl得分)和將數據105分割成第一組或區段130 和第二組或區段135的直線145。第一組130對應於第一分級層404中的第一組416,而第 二組135對應於第一分級層404中的第二組420。當第一組416被進一步分成第一子組428 和第二子組432時,可將附加直線(對應於附加tl得分和從中通過的垂直線)添加至第一 顯示部分504中的圖表100。第三顯示部分512包括向處理器(例如圖2中的處理器210)提供指令以處理所 選擇數據的多個用戶可選按鈕550a-550h。如圖所示,已在第二顯示部分508中選擇了亞子 組448。用戶可進一步通過按鈕550a-550h研究或評價亞子組448中數據的特性。例如, 按鈕550a關聯於計算亞子組448中tl值的方差的模塊,而tl值的方差是在用戶選擇按鈕 550a時計算的。如本文所述,對分類樹中特定組的統計計算是指對數據矩陣執行的計算,其 結果可以是一個矩陣或單個值(例如平方和)。按鈕550b關聯於計算亞子組448中tl值的標準差的模塊,而tl值的標準差是在 用戶選擇按鈕550b時計算的。按鈕550c關聯於計算亞子組448中Y值的方差(例如亞子 組448的第二數據矩陣或Y矩陣的方差)的模塊。按鈕550c類似於按鈕550a,除了分析亞 子組448中的不同值(例如tl值對Y值)以外。按鈕550d關聯於計算亞子組448中Y值 的標準差的模塊。按鈕550d類似於按鈕550b,除了分析亞子組448中的不同值(例如tl 值相對於Y值)以外。按鈕550e和550f關聯於分別計算亞子組448中tl值和Y值的平均值的模塊。可 根據若干計算手法中的任一種計算非平均值,包括確定中值或tl值或Y值或矩陣的模。在
15一些實施例中,計算手法是由用戶選擇的。響應用戶選擇按鈕550e-550f計算的tl值和/ 或Y值的平均值可指示供進一步評價(例如產出數據)或分析的數據。按鈕550g關聯於計算R2的模塊,R2指示Y值或產出值的方差並可用來確定PLS 或OPLS分析的健康度,例如tl得分直線如何精確地擬合於相應Y數據。在一些實施例中, R2稱為多重相關係數。按鈕550h關聯於計算Q2的模塊,Q2是指示亞子組448 (或任意Y矩 陣)中的總方差的一小部分,這是使用互相證實過程的特定PLS或OPLS模型預測的。在一些實施例中,按鈕550a-550h可關聯於分級層404、412、424和444而不是關 聯於分級層中的各個分支或組。在一些實施例中,可使用近似搜索來增大確定優選分割的速度。例如,近似搜索可 基於數據搜索曲線的多項式逼近。一例搜索曲線的逼近是逐段的二次多項式逼近。圖6是 示出使用近似搜索的示例性算法的流程圖600。在步驟604,選擇用於每個多項式逼近的點數(IipJ。點數(IipJ可由用戶選擇。 如果用戶尚未對該點數(np1)選擇一值,則對該點數(IipJ使用默認值(步驟608)。例如, 點數(npJ的默認值可用函數表示為np。1 = min(ll,sqrt(N)),其中N表示數據集中的總點 數。在已確定點數(IipJ後,確定用來擬合數據的多項式段數(步驟612)。用於確定 多項式段數的函數關係的例子Np。ly為Np。ly = min(7, integer [2N/npol]-1)。在已確定多項式段數Np。ly後,計算逼近的初始步長(步驟616)。確定的步長應覆 蓋除第一觀察資料和最末觀察資料以外的觀察資料(例如X變量)的範圍,並使每個多項 式段與多項式段的中點每側的觀察資料的一半重疊。對每個多項式段中的每個點計算等式1中參數「U」的「直截表達」或值(步驟 620)。在針對每個多項式段中每個點對等式1進行計算後(步驟620),例如使用最小二乘 擬合方法使二次多項式擬合於每個多項式段(步驟624)。步驟624也可使用其它擬合手 法。計算在擬合的多項式段上產生最小值的「U」值(步驟628)。在計算出最小值之後(步驟628),對步長進行評估(步驟632)。擬合過程的步長 是多項式中兩個點之間的觀察資料數的表徵。如果步長不超出預定值(例如1),則過程終 止(步驟636)。作為替代,如果步長超出預定值(例如1),則減小步長(步驟640)。例如, 可將步長四等分(即將步長除以4)。在步長已減小後,產生新的多項式段(步驟644)。將 新多項式段居中在參數「U」的最小值周圍,以使接近一半的數據落在多項式段中央的任一 側。對於新多項式段,為段中的每個點確定「U」值(步驟648)。步驟648在操作上類似於 發生在步驟632評估步長之前的步驟620。在步驟648最小化參數「U」的值後,多項式被擬合至新段(步驟652),並在新多項 式段上計算參數「U」的最小值(步驟656)。在步驟648之後,再次評估步長(步驟632), 如果步長不超出預定數(例如1),過程終止(步驟636)。否則,過程迭代直到步長落在預 定閾值之下為止。上述手法可實現在數字電路或計算機硬體、固件、軟體或其組合中。這種實現可 以是電腦程式產品,例如有形地體現在諸如機器可讀存儲設備的信息載體中的計算機程 序,以供例如可編程處理器、計算機或多臺計算機的數據處理裝置執行或控制其操作。計算 機程序可以包括編譯或解釋語言的任何形式程式語言撰寫,並可配置成任意形式,包括自立程序或模塊、組件、子例程或適於用在計算環境中的其它單元。電腦程式可配置成在一 個地點或分布在多個地點並由通信網絡互連的一臺計算機或多臺計算機上執行。方法步驟可由一個或多個可編程處理器執行,所述可編程處理器執行電腦程式 以通過處理輸入數據並產生輸出而實現技術功能。方法步驟也可由例如FPGA(現場可編程 門陣列)或ASIC(專用集成電路)的專用邏輯電路執行,並且裝置也可實現為這種專用邏 輯電路。模塊可以指實現該功能的電腦程式和/或處理器/專門電路的一些部分。適於執行電腦程式的處理器可包括例如通用和專用微處理器以及任何形式數 字計算機的任意一個或多個處理器。總的來說,處理器從只讀存儲器或隨機存取存儲器或 其兩者接收指令和數據。計算機的基本元件是執行指令的處理器以及存儲指令和數據的 一個或多個存儲器設備。總的來說,計算機還包括例如磁碟、磁光碟或光碟的一個或多個 存儲數據用海量存儲設備,計算機或者可操作地耦合於該海量存儲設備以從中接收數據或 將數據傳至那裡或既接收數據又傳輸數據。數據傳輸和指令也可發生在通信網絡上。適 於體現電腦程式指令和數據的信息載體包括所有形式的非易失性存儲器,例如包括諸如 EPROM、EEPROM的半導體存儲器設備以及快閃記憶體設備、例如內部硬碟或移動盤的磁碟、磁光碟 以及⑶-ROM、DVD-ROM盤。處理器和存儲器可補充以專用邏輯電路或包含在專用邏輯電路 中。本文使用的術語「模塊」和「功能」意指——但不局限於——執行某些任務的軟體 或硬體組件。模塊可較為有利地配置成留駐在可尋址存儲介質上,並配置成在一個或多個 處理器上執行。模塊可完全或部分地通過通用集成電路(IC)、FPGA或ASIC實現。因此,模 塊可包括例如組件,比如軟體組件、面向對象的軟體組件、類組件和任務組件、進程、函數、 屬性、過程、子例程、程序代碼段、驅動器、固件、微代碼、電路、數據、資料庫、數據結構、表、 陣列和變量。為某些組件和模塊提供的功能可併入較少組件和模塊中或進一步分割成附加 組件和模塊。另外,組件和模塊可較為有利地在許多不同平臺上實現,這些平臺包括計算 機、計算機伺服器、例如應用啟用的交換機或路由器的數據通信基礎設施設備或例如公共 或私人電話交換機或專用交換機(PBX)的電信基礎設施設備。在任一這些情形下,可以或 者通過寫入所選平臺本地的應用程式或者通過將該平臺接口於一個或多個外部應用引擎 而達成實現。為了提供與用戶的交互,上述技術可實現在具有顯示設備的計算機上,例如 CRT(陰極射線管)或LCD (液晶顯示)監視器,以將信息顯示給用戶,還具有鍵盤和定點設 備,例如滑鼠或跟蹤球,籍此用戶可將輸入提供給計算機(例如與用戶界面元交互)。其它 種類的設備可用來提供與用戶的交互;例如提供給用戶的反饋可以是任何形式的傳感器反 饋,例如視覺反饋、音頻反饋或觸覺反饋;而來自用戶的輸入可以任何形式接收,包括聲波、 語音或觸覺輸入。上述技術可實現在分布式計算系統中,該系統包括例如數據伺服器的後端組件和 /或例如應用伺服器的中間組件和/或例如具有圖形用戶界面和/或網絡瀏覽器的客戶計 算機(通過它用戶可與示例實現交互)的前端組件或這些後端、中間或前端組件的任意組 合。系統的組件可通過例如通信網絡的任何形式數字數據通信介質互連。也稱通信信道的 通信網絡的例子包括區域網(LAN)和例如網際網路的廣域網(WAN),並包括有線和無線網絡 兩者。在一些例子中,通信網絡可特徵化為虛擬網絡或子網,例如虛擬區域網(VLAN)。除非
17另有明確聲明,否則通信網絡也可包括PSTN的全部或一部分,例如由特定載體享有的一部 分。計算系統可包括客戶機和伺服器。客戶機和伺服器一般彼此遠離並典型地通過通 信網絡相互作用。客戶機和伺服器依靠運行在各計算機並彼此具有客戶機_伺服器關係的 電腦程式而發生關係。各實施例描述為與一個或多個通信路徑相連或由一個或多個通信路徑通信。通信 路徑不局限於傳輸數據的特定介質。可使用電、光、聲、物理、熱信號或其任意組合在通信路 徑上發送信息。通信路徑可包括多個通信信道,例如數據流容量相同或變化的多路復用信 道。多個用戶輸入可用來配置描述的用戶界面特徵的參數。這些輸入的例子包括按 鈕、單選按鈕、圖標、複選框、組合框、菜單、文本框、工具提示、撥動開關、按鈕、滾動條、工具 欄、狀態欄、窗口或關聯於用戶界面使用戶與本文所述任何模塊或系統通信和/或將數據 提供給這些模塊或系統的其它合適圖標或窗口小部件。儘管已參照特定實施例示出和描述了本發明,然而本領域內技術人員應當理解, 可對其作出各種形式和細節的變化而不脫離本發明由所附權利要求書定義的精神和範圍。
權利要求
一種計算機實現的方法,包括提供第一數據矩陣和第二數據矩陣,所述第一和第二數據矩陣中的每一個包括一個或多個變量(矩陣列)和多個數據點(矩陣行);使用偏最小二乘(PLS)分析或正交PLS(OPLS)分析從所述第一數據矩陣確定第一得分;以及將所述第一和第二數據矩陣逐行地分割成第一組和第二組,所述分割是基於所述第一數據矩陣的第一得分、所述第一數據矩陣的方差、以及所述第一和第二組的方差相對於所述第一和第二數據矩陣的方差的關係。
2.如權利要求1所述的方法,其特徵在於,分割包括使表徵所述第一PLS或OPLS得分 的方差和所述第二數據矩陣的變差之間的關係的參數最小化。
3.如權利要求1所述的方法,其特徵在於,分割包括使所述第一和第二組之間的統計 差最大化,所述統計差是基於所述第一數據矩陣的第一 PLS或OPLS得分的方差、每個組的 第二數據矩陣的方差、以及關聯於分割後殘留在所述第一和第二組中的數據矩陣的大小的 函數計算出的。
4.如權利要求1所述的方法,其特徵在於,所述第一數據矩陣包含表徵工藝數據的數據。
5.如權利要求1所述的方法,其特徵在於,所述第二數據矩陣包含表徵產出數據、質量 數據或其組合的數據。
6.如權利要求1所述的方法,其特徵在於,所述第一數據矩陣包含表徵與感興趣的分 子或大分子的結構變化關聯的測得或計算出的數據的數據。
7.如權利要求1所述的方法,其特徵在於,所述第二數據矩陣包含表徵相同分子或大 分子的生物數據的數據。
8.如權利要求1所述的方法,其特徵在於,所述第一組包括第三數據矩陣和第四數據 矩陣,所述第三數據矩陣和第四數據矩陣各自通過將所述第一和第二數據矩陣逐行地分割 成所述第一和第二組而得到,所述方法還包括使用第二偏最小二乘(PLS)分析或OPLS分析從所述第三數據矩陣確定第二得分;以及將所述第三和第四數據矩陣逐行地分割成第三組和第四組,所述分割是基於所述第三 數據矩陣的第二得分、第三數據矩陣的方差、以及所述第三和第四組的方差相對於所述第 三和第四數據矩陣的方差的關係。
9.如權利要求8所述的方法,其特徵在於,所述第二組包括第五數據矩陣和第六數據 矩陣,所述方法還包括當所述第二組包括多於閾值數的數據點時,使用第三偏最小二乘(PLS)分析或OPLS分 析從所述第五矩陣確定第三得分;以及將所述第五和第六數據矩陣逐行地分割成第五組和第六組,所述分割是基於所述第五 數據矩陣的第三得分、所述第三數據矩陣的方差、以及所述第五和第六組的方差相對於所 述第五和第六數據矩陣的方差的關係。
10.如權利要求9所述的方法,其特徵在於,還包括分級地顯示所述第一、第二、第三、 第四、第五或第六組。
11.如權利要求9所述的方法,其特徵在於,還包括當所述第二組包括少於閾值數的數據點時終止所述第二組的分割。
12.如權利要求9所述的方法,其特徵在於,還包括當將所述第二組分割成第五和第六 組的情況下所述第二得分和第二數據矩陣的組合方差不減小時,終止所述第二組的分割。
13.如權利要求9所述的方法,其特徵在於,還包括當與所述第一和第二數據矩陣關聯 的之前分割的次數等於或超過預定閾值時終止所述第二組的分割。
14.如權利要求9所述的方法,其特徵在於,所述預定閾值是表徵樹形圖中最大分級層 數的極限值。
15.如權利要求1所述的方法,其特徵在於,還包括在顯示所述第一數據矩陣和所述第 二數據矩陣的圖表上標識所述第一組或所述第二組。
16.如權利要求1所述的方法,其特徵在於,所述方差用四分位間法計算的。
17.一種有形地體現在信息載體中的電腦程式產品,所述電腦程式產品包括指令, 所述指令可操作以使數據處理裝置接收第一數據矩陣和第二數據矩陣,所述第一和第二數據矩陣中的每一個包括一個或 多個數據點;使用所述第一和第二數據矩陣的偏最小二乘(PLS)分析或OPLS分析從所述第一數據 矩陣確定第一得分;以及將所述第一和第二數據矩陣逐行地分割成第一組和第二組,所述分割是基於所述第一 數據矩陣的第一得分、所述第一數據矩陣的方差、以及所述第一和第二組的方差相對於所 述第一和第二數據矩陣的方差的關係。
18.—種分級地組織數據的系統,所述系統包括(a)存儲器,所述存儲器包括(al)包含第一數據矩陣和第二數據矩陣的數據結構;(b)可操作地耦合於所述存儲器的處理器,所述處理器包括(bl)部分地基於所述第一數據矩陣的偏最小二乘分析或OPLS分析來確定第一得分的 模塊;(b2)分割所述第一和第二數據矩陣以產生第一和第二組的模塊,所述分割是部分地基 於所述第一數據矩陣的第一得分、所述第一數據矩陣的方差、以及第一和第二組的方差相 對於所述第一和第二數據矩陣的關係;以及(c)顯示器,所述顯示器可操作地耦合於所述處理器以顯示所述第一和第二組以及所 述第一和第二組與所述第一和第二數據矩陣的關聯。
19.一種用於分析數據的系統,所述系統包括數據檢索裝置,用來從存儲器檢索第一數據矩陣和第二數據矩陣,所述第一和第二數 據矩陣中的每一個包括一個或多個數據點;數據分析裝置,所述數據分析裝置使用偏最小二乘(PLS)分析或OPLS分析從所述第一 數據矩陣確定第一得分;以及數據分割裝置,用來將所述第一和第二數據矩陣分割成第一組和第二組,所述分割是 基於所述第一數據矩陣的第一得分、所述第一數據矩陣的方差、以及所述第一組和第二組 的方差相對於所述第一和第二數據矩陣的方差的關係。
全文摘要
一種在相對短的處理時間內分割(分集)大量數據的系統和方法。該方法包括提供第一數據矩陣和第二數據矩陣,其中第一和第二數據矩陣中的每一個包括一個或多個變量以及多個數據點。該方法還包括使用偏最小二乘(PLS)分析或正交PLS(OPLS)分析從第一數據矩陣確定第一得分,並基於分類的第一得分、第一數據矩陣的方差以及第一和第二組的方差相對於第一和第二數據矩陣的方差的關係將第一和第二數據矩陣(逐行地)分割成第一組和第二組。
文檔編號G06K9/62GK101971169SQ200880123056
公開日2011年2月9日 申請日期2008年12月19日 優先權日2007年12月21日
發明者J·特裡格, L·埃裡克松, S·B·沃爾德 申請人:Mks儀器股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀