新四季網

分類試探方法

2023-05-21 04:33:36

專利名稱:分類試探方法
技術領域:
本發明涉及一種分析和分類對象的方法,這些對象可以被表示成像文檔那樣的字符串或像股票市場價格的變化、表示通過對基因片(gene chip)進行mRNA(信使核糖核酸)雜化檢測到的組織的細胞中的不同基因的級別或通過質譜分析檢測到的樣本中不同蛋白質的數量那樣的數字數據的串或表。更具體地說,本發明涉及一種從由要分類的一組對象的預分類樣本組成的學習數據組中生成和核實分類算法的通用方法。在文檔的情況中,通過閱讀,在市場數據的情況中,通過歷史經驗,或在生物數據的情況,通過病理檢查,已經對預分類樣本進行了分類。然後,分類算法可以用於分類以前未分類的樣本。這樣的算法通常被稱為數據開採(mining)技術。最常用的數據開採技術,譬如,多元線性回歸(multivariate linear regression)和非線性前饋神經網絡(nonlinear feed-forward neural networks)的固有缺陷在於,一旦被開發出來,它們是靜態的,不能識別數據流中的新事件。最終結果是,那些新事件往往被分類錯了。本發明涉及一種通過可以識別數據流中的新事件的自適應機制克服這個缺陷的解決方案。
背景技術:
本發明使用了遺傳算法和自組織自適應模式識別算法。遺傳算法最初是由John.H.Holland教授加以描述的(J.H.Holland,Adaptation in Naturaland Artificial Systems,MIT Press 1992,see also U.S.patent No.4,697,242 and No.4,881,178)。頒發給Koza的美國專利第5,136,686號描述了把遺傳算法用於模式識別(參見第87欄)。
自組織模式識別已經由Kohonen作了描述(T.Kohonen,Self Organizingand Associative Memory,8 Series in Information Sciences,SpringerVerlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997)。把自組織映射應用在自適應模式識別中由麻省理工學院(Massachusetts Institute of Technology)的Richard Lippman先生作了描述。

發明內容
本發明包括兩種相關試探算法,即,用於實現分類方法和學習方法的分類算法和學習算法。分類算法的參數通過把學習算法應用在訓練或學習數據組中來確定。訓練數據組是每個項目已經被分類的數據組。儘管描述如下的方法沒有涉及數字計算機,但是,本領域的普通技術人員應該明白,本發明是通過像計算機軟體那樣的工具實現的。任何通用計算機都可以使用;基於本方法的計算不是過分地大。雖然含有並行處理設施的計算機可以用於本發明,但是,這樣的處理能力並不是實現使用本發明的學習算法所必需的。分類算法只需要最低程度的計算量。
本發明的分類方法根據與對象相聯繫的數據流分類對象。本發明中每個對象的特徵在於,大量的,至少約100個數據點,可以是10,000或甚至更多個數據點的數據流。數據流以使同一類型對象的不同樣本的數據流中的各個數據相互關聯的方式生成。
對象的樣本包括文本、在預測金融市場的方向或複雜處理設施的行為的情況下的時間點和用於醫療診斷的生物樣本。這些對象的相關數據流是文本中三字母組的分布、公開交易的股票或商品的價格的逐日變化、壓力和溫度的瞬時讀數和諸如煉油廠之類的處理設施中的流動讀數和在樣本中找到的某個蛋白質分組的質譜或對一列不同試驗多核苷酸進行mRNA雜分的強度。
因此,一般說來,無論什麼時候想要把對象分類到例如通常是兩個或三個類目的幾個類目之一中,都可以應用本發明,並且,這些對象與大量數據例如通常數千個數據點相聯繫。術語「對象(Object)」在這裡用大寫字母開頭,以表示對象在這裡具有特殊含義,它的特殊含義在於,它用來統指有形對象例如特定樣本、無形對象例如作品或文本和完全抽象的對象例如在複雜處理設施中出現不幸事件之前的時刻,或外幣價格的變動。
分類方法的第一步是計算對象矢量,即,從與要分類的對象相聯繫的數據流中取出的小量數據點或標量(在4到100之間,更通常地,在5到30之間)的有序組。把數據流轉換成對象矢量稱為「提取(abstraction)」。最簡單的提取處理是選擇數據流的若干個點。但是,原則上,可以對數據流的任何函數進行提取處理。在如上所述的實施例中,通過從數據流中選擇少數幾個特定強度進行提取。
在一個實施例中,分類方法的第二步是,如果存在的話,確定矢量處在哪個數據簇中。數據簇是作為矢量空間中固定規模的不重疊「超球面」的多維等效物的數據結構。每個數據簇的位置和相關分類或「狀態」通過學習算法從訓練數據組中確定。每個數據簇的範圍或規模和矢量空間的維數被設置成在運行學習算法操作之前,由操作人員完成的常規實驗。如果矢量位於已知的數據簇之內,則對對象進行與那個簇相關的分類。在最簡單實施例中,矢量空間的維數等於在提取處理中選擇的數據點的個數。但是,可替換地,對象矢量的每個標題可以利用數據流的多個數據點來計算。如果對象矢量位於任何已知簇之外,可以對異型物或異型樣本進行分類。
在一個可替代實施例中,放棄把每個數據簇定義成超球面,和第二步通過計算數據參數p=∑min(|Ii|,|Wi|)/∑|Wi|)來完成,其中,Ii是對象矢量的標量,和Wi是預先形成分類矢量的質心的標量。匹配參數p也被稱為歸一化「模糊(Fuzzy)」AND(「與」)。然後,通過這個尺度,根據與之最相似的預先形成矢量的分類,分類對象。當對象矢量和預先形成矢量相同時,匹配參數是1,在所有其它情況下,匹配參數都小於1。
學習算法確定利用已知數學技術和兩個預置參數的組合,確定提取處理的細節和數據簇的特性(identity)兩者。用戶預置矢量空間的維數和數據簇的規模,或者,可替換地,「模糊AND」匹配參數ρ的最小可接受量級。正如這裡所使用的那樣,術語「數據簇」指的是利用歐幾裡得尺度(Euclideanmetric)的超球面和利用「模糊AND」尺度的預先形成分類矢量兩者。
通常,數據簇所處的矢量空間是歸一化矢量空間,使得在每一維中強度的差異是不變的。通過這樣的表示方式,利用歐幾裡得尺度的數據簇的規模可以表示為位於簇內的矢量之間的最小相似度(百分比)。
在一個實施例中,學習算法可以通過把兩種不同類型的可公開買到的普通軟體組合在一起來實現,這兩種軟體是由別人開發的,並且是本領域的普通技術人員所熟知的,它們是(1)遺傳算法(J.H.Holland,Adaptation inNatural and Artificial Systems,MIT Press 1992),用於處理一組邏輯染色體(logical chromosome)1,以識別控制數據流的提取的最佳邏輯染色體;和(2)可從Group One Software,Greenbelt,MD購買到的自適應自組織模式識別系統(參見T.Kohonen,Self Organizing and Associative Memory,8 Series in Information Sciences,Springer Verlag,1984;Kohonen,T,Self-organizing Maps,Springer Verlag,Heidelberg 1997),用於根據通過邏輯染色體生成的任何一組矢量,識別一組數據簇。具體地說,自適應模式識別軟體使位於同質(homogeneous)數據簇,即,包含只含有一種分類類型的學習數據組的矢量的數據簇中的矢量個數達到最大。
為了使用遺傳算法,必須把「適應性(fitness)」指定給每個邏輯染色體。每個邏輯染色體的適應性是通過位於與那個染色體有關的一組最佳數據簇的同質簇中的、在訓練數據組中的矢量的個數來確定的。因此,本發明的學習算法把識別最佳邏輯染色體的遺傳算法、生成一組最佳數據簇的自適應模式識別算法和基於位於同質簇中的樣本矢量的個數的適應性計算組合在一起。在它的最概括實施例中,本發明的學習算法包括遺傳算法、模式識別算法和衡量模式識別算法的輸出的同質性(homogeneity),以控制遺傳算法的適應性函數的使用的組合。
為了避免混亂,應該注意到,數據簇的個數比類目的個數要大得多。下面舉例的分類算法把對象分類成兩個類目例如把文檔分類成感興趣的那些文檔和不感興趣的那些文檔,或者,把臨床樣本分類成良性的或惡性的。但是,這些分類算法利用了許多個數據簇來進行分類。當對象是時間點時,分類算法可以使用多於兩個的類目。例如,當本發明用作外幣匯率的預測器時,與上升、下跌和前景難測相對應的三部分(tripartite)方案是合適的。此外,可以預計,這樣的三部分分類算法存在個數比三大得多的數據簇。
具體實施例方式
為了實際應用本發明,常規專業人員必須通過應用學習算法,開發分類1把術語「邏輯染色體」與遺傳學習算法聯繫在一起使用是因為,算法的邏輯運算與複製、選擇、重組和變異類似。當然,在DNA等中還沒有邏輯染色體的生物實施例。本發明的遺傳學習算法純粹是一種計算手段,不應與用於基於生物的信息處理的方案相混淆。算法。對於任何試探法,需要一些常規實驗。為了應用學習算法,常規專業人員利用訓練數據組,並且必須通過實驗優化兩個參數,維數和數據簇規模。
儘管對矢量的維數沒有絕對的或固有的限制,但是,在每次實施時,學習算法本身固有地限制維數。如果維數太低或簇的規模太大,學習算法就不能生成正確分類具有可接受水平的同質性的所有樣本的任何邏輯染色體。相反,維數可能太大。在這種情況下,學習算法在學習處理過程的早期生成可能適應性最大的許多邏輯染色體。因此,存在著結果卻中途夭折的選擇。類似地,當數據簇的規模太小時,將發現簇的個數與訓練數據組中樣本的個數接近,此外,常規專業人員將發現,大量邏輯染色體將形成一組完全同質的數據簇。
儘管上文提供了為分類算法選擇維數和數據簇規模的一般性指導,但是,應該明白,分類算法的值的真假檢驗是其正確分類與訓練數據組中的數據流無關的數據流的能力。因此,常規專業人員應該明白,必須保留學習數據組的一部分,以便核實分類算法隨對於指定目的可接受的出錯率而變化的情況。下面更詳細地描述本發明的具體部分。
A.數據流和對象的類型對象的分類和相關數據流的生成取決於要解決的問題的性質。這些原則通過如下的實例加以說明。
文檔在一個實施例中,本發明提供了用於計算機化分類文檔的方法。例如,你可能想要從由多得難以一個一個單獨查看的大量文檔組成的資料庫中提取感興趣的文檔。對於這些情況,本發明提供了一種計算機化算法,以識別最有可能包含感興趣文檔的一個資料庫分組。每個文檔是一個對象,每個文檔的數據流由直方圖組成,直方圖表示在去掉空格和標點符號之後,在文檔中找到的17576(263)種三字母組合(三字母組(trigrams))每一個出現的頻率。可替換地,在從文檔中進一步去掉元音之後,可以製作輔音的9261種三字母組的直方圖。根據用戶的需要,訓練數據組由已經被分類成「感興趣」或「不感興趣」的適當文檔的樣本組成。
金融市場不言而喻,金融市場會對外部事件作出反應,並且,以協調的方式相互聯繫;例如,外匯匯率受投資機會的吸引力的影響。但是,對單獨事件作出反應的方向和程度卻難以預測。在一個實施例中,本發明提供了在一個基於價格隨其它因素而變動的市場中價格的計算機化預測算法。每個時間點是一個對象例如以小時計的間隔,一個小時的數據流由相關國家的主要股票市場例如對英鎊和美元的匯率感興趣的紐約和倫敦股票交易所中公開交易證券的價格變化的直方圖組成。訓練數據組由已經被分類成在美元-英鎊匯率的上升或下降之前的價格變化的歷史記錄組成。
處理設施在複雜的處理設施,譬如,煉油廠、油田或石化廠中,不斷監視和記錄許多閥門和其它控制器的壓力、溫度、流動和狀態(統稱為「狀態值」)。需要在不幸事件變成災難性故障之前,檢測出即將來臨的不幸事件。本發明提供了把每個時間點分類成高風險時間點或一般風險時間點的計算機化算法。數據流由每個時間點的狀態值組成。訓練數據組由分類成在不幸事件之前或在一般操作之前的狀態值的歷史記錄組成。
醫療診斷本發明可以用在為醫療診斷分析組織樣本中例如用於分析血清或血漿。數據流可以是得出2,000或更多個可以被量化成至少千分之一(三位有效數字)的測量結果的組織樣本的任何可再現物理分析。蛋白質的飛行時間質譜尤其適合於本發明的實際應用。更具體地說,就是基體促進型雷射器退吸電離飛行時間(matrix assisted laser desorption ionization timeof flight,MALDI-TOF)和表面增強型雷射器退吸電離飛行時間(surfaceenhanced laser desorption ionization time of flight,SELDI-TOF)譜測量。有關內容請參閱WO 00/49410。
數據流還可以包括不是固有地通過諸如分子重量之類的單個有序參數組織的,而是具有任意次序的測量結果。因此,當組織樣本是活體解剖標本時,同時衡量2,000或更多個基因的表示級的DNA微陣列數據可以用作數據流,對各個基因的次序是數據流的認識是任意的。
對於早期診斷很重要,但是由於症狀不明而造成技術上的困難,和由於病理組織的代謝活動,可以預計疾病在血清中產生可檢測出來的變異的特定疾病,本發明特別有用。惡性腫瘤(癌症)的早期診斷是本發明應用的基本焦點。工作樣本顯示了前列腺癌的診斷,還為卵巢症的診斷進行了相似測試。
應該注意到,利用本發明的方法,可以對來自一個患者樣本的單個數據流進行分析,供多種診斷使用。由於專用於每種診斷的步驟僅僅由計算機來完成,因此,這種多種診斷的附加成本是微不足道的。
B.提取處理和邏輯染色體在本發明的分類處理中第一步驟是把數據流轉換成特徵矢量或從數據流中提取特徵矢量。在提取之前,通過把總峰值指定成獨立值1和把所有其它點變成相應分數值,可以方便地歸一化數據。數據流的最簡單提取包括選擇少數幾個數據點。本領域的普通技術人員應該認識到,可以構造出多個點的更複雜函數,譬如,在某個區間上的平均值函數或在相對於所選原始數據點預定距離的數據點之間的更複雜和或差函數。也可以使用數據流的強度值的函數,並且,可以預測,這樣的函數起與在工作樣本中所示的簡單提取等效的作用。
本領域的普通技術人員還應該懂得,常規實驗可以確定在任意點上求出瞬時斜率的提取在本發明中是否也有效。因此,所示工作樣本這種可通過常規方法獲得的變型在本發明的範圍之內。
本發明的特徵是把遺傳算法用於確定用於計算特徵矢量的數據點。為了與現有技術的名稱保持一致,要選擇的特定點的列表被稱為邏輯染色體。邏輯染色體包含與特徵矢量的維數一樣多的「基因」。只要假設不能複製染色體的基因,任何適當個數據點的組都可以是邏輯染色體。基因的次序對本發明來說並不重要。
本領域的普通技術人員應該懂得,遺傳算法可以應用在兩個條件得到滿足的時候。對於這個問題的具體解決方案必須能夠通過一組或一串固定長度離散元素來表示,這些單元可以是數字或字符,和可以重組這些串,進一步形成解決方案。你還必須能夠計數每種解決方案的優缺點的數值,即它的適應性。在這些情況下,遺傳算法的細節與尋求解決的問題無關。因此,對於本發明,可以應用遺傳算法軟體。可從阿貢國家實驗室(Argonne NationalLaboratory)購買到的PGAPack程序庫中的算法是適用的。下面討論具體邏輯染色體的適應性的計算。
第一個示範性實例涉及到100個文檔的文集,把這100文檔隨機分成46個文檔的訓練組和54個文檔的測試組。該文檔包括國會(State of the Union)演說、書籍《戰爭藝術》(The Art of War)的選段和來自《金融時報》(theFinancial Time)的文章。對每個文檔計算三字母組的分布。選擇25維的矢量空間和在每維中是那個維中的值域的0.35倍數據簇規模。遺傳算法用大約1,500個隨機選擇的邏輯染色體初始化。隨著算法進行下去,複製出更合適的邏輯染色體,終止掉不那麼合適的邏輯染色體。在染色體與通過隨機取代染色體的元素發生的變異之間存在重組。最初隨機選擇的邏輯染色體的集合不是本發明的基本特徵。對數據流的所有組進行某種預先篩分,以便識別出那些具有最高可變性的的數據點也許是有用的,儘管這樣的技術也有可能引入不希望有的初始偏差。本領域的普通技術人員應該懂得,遺傳算法的初始染色體組、變異率和其它邊界條件對於它的函數來說不是關鍵性的。
C.模式識別處理和適應性分數生成計算通過遺傳算法生成的邏輯染色體每一個的適應性分數(score)。適應性分數的計算需要為測試的每一個邏輯染色體生成一組最佳數據簇。數據簇只不過是訓練數據組的對象矢量所在的矢量空間中的體積。生成一組最佳數據簇的方法對於本發明來說不是關鍵性的,下面將對此加以研究。但是,無論什麼方法用於生成數據簇映像,該映像都受如下規則約束每個數據簇都應該位於處在數據簇內的數據點的質心上,兩個數據簇不可以重疊,和在生成映像之前,歸一化矢量空間中每個簇的維數是固定的。
數據簇的規模由用戶在訓練期間設置。把規模設置得太大會導致難以找到可以成功分類整個訓練組的任何染色體,相反,把規模設置得小一點會導致簇的個數接近訓練組中數據點的個數的一組最佳數據簇。更重要的是,數據簇的規模被設置得太小會導致如下所述的「過分適應(overfiting)」。
用於定義數據簇的規模的方法是本發明的一部分。簇規模可以通過數據簇的任何兩個成員之間的歐幾裡得距離(平方和的根)的等效物的最大值來定義。當數據流通過SELDI-TOF質譜測量數據生成時,與90%相似性的要求相對應的數據簇規模適合於本發明。對於文本的分類,發現稍微大一點的數據簇更有用。從數學上,90%相似性通過要求簇的任何兩個成員之間的距離小於歸一化矢量空間中兩個點之間的最大距離的0.1來定義。對於這樣的計算,歸一化矢量空間,以便訓練數據組內矢量的每個標量的範圍在0.0和1.0之間。然後,矢量空間中任何兩個矢量之間如此歸一化的、最大可能距離是 ,其中,N是維數。然後,每個簇的歐幾裡得距離是0.1× 矢量空間的具體歸一化不是本發明的關鍵性特徵。前述方法是為了易於計算而選擇的。可替換的歸一化可以通過不是把每一維定標成一定範圍,而是使每一維具有相等的變異性來實現。可以使用諸如矢積尺度之類的非歐幾裡得尺度。
本領域的普通技術人員還應該認識到,數據流內值的分布是對數正態分布,而不是一般分布,那麼,可以把數據流轉換成對數形式。
一旦已經生成邏輯染色體的一組最佳數據簇,就可以計算那個染色體的適應性分數。對於本發明,染色體的適應性分數大體上對應於位於同質的簇,即,包含來自具有單一分類的樣本的特徵矢量的簇中的訓練數據組的矢量數。更明確地說,適應性分數通過把同質性分數指定給每個簇來計算,同質性分數從對於同質簇為0.0變化到對於包含相等個數的惡性和良性樣本矢量的簇為0.5。染色體的適應性分數是數據簇的平均適應性分數。因此,0.0的適應性分數是最合適的。存在有助於生成更多數據簇的邏輯染色體的偏差,這時因為,當在指定數據的過程中,兩個邏輯染色體存在相同個數的錯誤時,生成更多個數的簇的邏輯染色體將具有更低的平均同質性分數,因此,具有更好的適應性分數。
可公開買到的利用自組織映射生成的軟體有好幾個,其中之一是「LeadCluster Map」,可以通過作為Model1從Group One Software(Green-belt,MD)獲得的通用軟體來實現。
本發明的可替換實施例利用非歐幾裡得尺度來建立數據簇的邊界。尺度指的是在矢量空間中測量距離的方法。本發明的可替換尺度可以基於如上面所定義的歸一化「模糊AND」。根據「模糊AND」實現自適應模式識別算法的軟體可從波士頓大學(Boston University)獲得,這個軟體名叫Fuzzy ARTMAP。
D.特定實施例的描述和核實本領域的普通技術人員應該明白,整個訓練數據組到同質數據簇的指定本身不是分類算法以可接受水平的精度有效運行的證據。因此,通過學習算法生成的分類算法的值必須通過它分類除了訓練數據組之外的其它一組數據的能力來測試。當學習算法生成成功指定訓練數據組,但是僅僅很差地指定測試數據組的分類算法時,就認為這個訓練數據被學習算法過分適應了。當維數太大和/或數據簇的規模太小時會導致過分適應。
文檔簇文檔(文本)是各行各業都感興趣的。這些行業包括法律、醫療和情報團體。當面對文本性材料的流水作業量的精確性時,已經證明基於布爾(Boolean)的搜索和檢索方法是不合適的。並且,布爾搜索不能捕獲到概念性信息。
對這個問題的建議方法是設法以服從數值分析的方式提取概念性信息。一種這樣的方法是把文檔編製成三字母組的集合和記錄它們出現的頻率。三字母組是任何三個字符的集合,譬如,AFV、KLF、OID等。因此,有263種三字母組。空格和標點稱號不包括在內。然後,可以通過把文檔分段成從源自那個文檔的文本的開頭開始的三字母組的特定集合來表示這個文檔。從那個文檔得出的三字母組集合和它們的頻率是特徵量。如果在一個集合中的文檔具有相似的三字母組集合和頻率,那麼,它們很可能涉及相同主題。如果只檢查和計數三字母組的特定子集,這就特別正確。問題是,三字母組的哪個子集描述了任何概念。基於本發明的學習算法可以回答這個問題。
把來自《金融時報》、《戰爭藝術》和總統國會演說的100個英文文檔彙編成一個文集。把分類隨機地劃分成訓練和測試文集。把0或1的某個值指定給所有文檔,其中,0表示令人討厭的,1表示賞心悅目的。學習算法對整個三字母組集合進行搜索,並且識別將文檔分成兩類的三字母組集合。最後的模型處在25維空間中,以及判別邊界被設置在該空間中允許的最大距離的0.35倍上。分類算法只利用了17,576種可能三字母組中的25種。一旦進行測試,就會獲得下表的結果。

表A從垂直方向讀出含混矩陣(confusion matrix)實際值,和從水平方向讀出根據本發明的算法的結果。
結果表明,算法正確地識別出26個感興趣文檔中的24個,和正確地篩出或捨棄了26個不感興趣文檔中的22個。
生物狀態的評估把上述學習算法用於開展利用55個患者血清樣本的SELDI-TOF質譜(MS)對前列腺癌逐步進行分類,在這55個患者血清樣本中,30個通過活體解剖被診斷為前列腺癌和前列腺血清抗原(PSA)水平大於4.0ng/ml,和25個正常體PSA水平低於1ng/ml。MA數據是通過選擇7個分子量值提取的。
生成把訓練數據組中的每個矢量指定給同質數據簇的簇映像。簇映像包含34個簇,其中,17個是良性的,和17個是惡性的。表1顯示了映像的每個數據簇的位置和指定給每個簇的訓練組的樣本數。
分類算法是利用把訓練數據組排除在外的231個樣本進行測試的。使用了來自經歷過各種臨床和病理診斷的患者的6組樣本。臨床和病理描述和算法結果如下1)24個患者PSA>4ng/ml,和通過活體解剖證明得了癌症,其中,22個被映射到有病數據簇,2個被映射到無病數據簇;2)6個正常,均被映射到健康數據簇;3)39個得了前列腺肥大(BPH)或前列腺炎,和PSA<4ng/ml,其中,7個被映射到有病數據簇,0個被映射到健康數據簇,和32個被映射到無病數據族;4)139個得了BPH或前列腺炎,並且,4ng/ml<PSA<10ng/ml,其中,42個被映射到有病數據簇,2個被映射到健康數據簇,和95個被映射到無病數據族;5)19個得了BPH或前列腺炎,並且,PSA>10ng/ml,其中,9個被映射到有病數據簇,0個被映射到健康數據簇,和10個被映射到無病數據族。第6組數據是從通過活體解剖證明得了惡性腫瘤和PSA>10ng/ml的患者身上取出前列腺切除之前和之後的樣本得到的。正如所期望的那樣,7個手術前樣本的每一個都被指定到有病數據組。但是,在做完手術6個星期之後,PSA水平已經降到1ng/ml以下,那時取出的樣本沒有一個不可以被指定到任何數據組。
當評估前述測試的結果時,應當回想到,在PSA為2-4ng/ml和通過活體解剖診斷為良性的患者中隱藏著惡性腫瘤的比率為約30%。因此,雖然對癌症沒有進行組織診斷,但發現18%和47%之間的患者PSA高,這與正確預測惡性腫瘤的存在是一致的。
權利要求
1.一種利用含有多個預分類數據簇的矢量空間分類對象的方法,包括如下步驟a.輸入描述對象的數據流;b.提取數據流,以便計算刻劃數據流的對象矢量;c.如果存在的話,識別對象矢量所在的數據族;和d.把識別的數據族的狀態指定給對象,或者,如果沒有識別出數據簇,則把異型的狀態指定給對象。
2.根據權利要求1所述的方法,其中,提取是通過包括從數據流中選擇5到25個之間的數據點的處理完成的。
3.根據權利要求1所述的方法,其中,識別是通過包括計算數據族的質心與對象矢量之間的歐幾裡得距離的處理完成的。
4.根據權利要求1所述的方法,其中,識別是通過包括計算對象矢量的歸一化矢積和表示數據族的質心的處理完成的。
5.根據權利要求1所述的方法,其中,每個數據簇被預分類成具有一個或兩個狀態條件。
6.根據權利要求1所述的方法,其中,每個數據簇被預分類成具有三個狀態條件之一。
7.根據權利要求1所述的方法,其中,數據流由1,000到20,000個之間的數據點組成。
8.根據權利要求1所述的方法,其中,數據流的長度由至少1,000個數據點組成。
9.一種利用一組預分類對象構造分類算法的方法,每個對象與數據流相聯繫,其中,該算法的特徵在於,在維數固定的矢量空間中含有預定範圍的多個數據簇,該方法包括如下步驟a.提供一組與預分類對象相聯繫的數據流;b.選擇指定數據流的預定個點的位置的最初一組邏輯染色體;c.利用每個染色體為該組數據流的每個成員計算對象矢量;d.通過在預定範圍的多個不重疊數據簇的矢量空間中,找出使位於只包含同質分類對象矢量的數據簇中的對象矢量的個數最大化的位置,確定每個染色體的適應性,這樣的矢量的個數越多,邏輯染色體的適應性就越大;e.通過包括步驟(c)和(d)的疊代、終止適應性低的邏輯染色體,複製適應性高的邏輯染色體,染色體的重組和變異的疊代處理,優化該組邏輯染色體;f.終止疊代處理和選擇為不重疊數據簇的最佳同質組作好準備的邏輯染色體,其中,最佳同質組的每個簇的歸屬狀態是位於數據簇內的對象矢量的分類;和g.通過包括利用所選邏輯染色體計算未知對象矢量和根據未知對象矢量所處的不重疊數據簇的最佳同質的數據簇的歸屬狀態,分類未知對象矢量的處理,構造分類未知對象的分類算法。
10.根據權利要求9所述的方法,其中,固定維數在5到25之間。
11.根據權利要求9所述的方法,其中,預分類對象的個數在20到200之間。
12.根據權利要求9所述的方法,其中,最初一組邏輯染色體是隨機選擇出來的。
13.根據權利要求9所述的方法,其中,最初一組邏輯染色體由100到2,000個之間的邏輯染色體組成。
14.根據權利要求9所述的方法,其中,每個數據簇的範圍是相等的。
15.根據權利要求9所述的方法,其中,每個數據簇的範圍是通過歐幾裡得尺度確定的。
16.根據權利要求15所述的方法,其中,每個數據簇在一維中的內容是對象矢量在該維中的範圍的預定分數。
17.根據權利要求9所述的方法,其中,確定每個數據簇的範圍的尺度是模糊AND匹配參數隨數據簇的矢量特徵量變化的函數。
18.根據權利要求9所述的方法,其中,最佳同質組的每個數據簇的位置是位於數據簇中的預分類對象的對象矢量的質心。
19.根據權利要求9所述的方法,其中,最佳同質組的每個數據簇的位置是位於數據簇中的預分類對象的對象矢量的質心。
20.根據權利要求9所述的方法,其中,最佳同質組的每個數據簇的位置是位於數據簇中的預分類對象的對象矢量的質心。
21.一種附有可以用於執行權利要求1所述的方法或權利要求9所述的方法的指令的、用於通用數字計算機的軟體產品。
22.一種在通用數字計算機上執行權利要求1所述的方法或權利要求9所述的方法或者使權利要求1所述的方法或權利要求9所述的方法在通用數字計算機上得以執行的軟體產品。
23.一種被編程成執行權利要求1所述的方法或權利要求9所述的方法或者使權利要求1所述的方法或權利要求9所述的方法得以執行的通用數字計算機。
全文摘要
本發明涉及分類對象的試探(heuristic)算法。第一學習算法包括用於提取與每個對象相關聯的數據流的遺傳算法,以及用於分類對象和衡量遺傳算法的染色體的適應性的模式識別算法。學習算法應用於訓練數據組。學習算法生成用於分類或歸類未知對象的分類算法。本發明可用在分類文本和醫學樣本,預測基於價格隨其它因素而改變的金融市場的行為,和監視複雜處理設施的狀態,以便檢測即將發生的故障的領域中。
文檔編號G06K9/62GK1446344SQ01813720
公開日2003年10月1日 申請日期2001年6月19日 優先權日2000年6月19日
發明者本·希特 申請人:科雷洛吉克系統公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀