一種粒子自動分類方法
2023-12-01 20:10:51 1
專利名稱:一種粒子自動分類方法
技術領域:
本發明涉及粒子分類方法,尤其適用於流式細胞儀的自動分類方法。
技術背景
流式細胞儀以及基於流式細胞儀技術的血液分析儀、尿液分析儀及粒子分析儀等都是通過收集或者分析粒子的二維或者多維數據的方法來識別液體中的不同粒子以將它們分成不同的類別。如圖1所示,在流式細胞儀中,細胞或者粒子的懸液在鞘液的包裹下逐個通過光照區域,在光照區域中粒子受到雷射的照射而產生不同的光信號,如前向散射信號,側向散射信號,以及多路螢光信號。大角度信號反映了細胞複雜度信息,小角度信號反映了細胞體積信息。分析系統將檢測器收集來的這些信號生成二維或者三維數據的散點圖,在散點圖上劃分多個區域,細胞或者粒子的多參數信號落在同一個區域的那些粒子被歸為同一類,並統計這些類別內的粒子數目和百分比,用以分析樣本的統計特性。傳統的方法是在散點圖上用固定邊界進行分類,固定邊界能體現出大部分正常樣本特徵,缺點是不能對不同的樣本進行邊界調整,當某些樣本的粒子的信號特徵顯著不同於固定邊界所表達的特徵時就會出現較大的偏差。US. Pat. No. 4987086、4727020、4704891、4599037、4987086、 6014904都使用了一些方法識別和分類計數血液樣本中的細胞的分類方法。
用事先劃分好的邊界可以在散點圖上生成不同的區域代表著不同類粒子類別, 然而這些離散的區域可能會有重疊,落在重疊區域的粒子可能會被錯誤的識別分類。 U. S. Pat. No. 5627040使用了一種「重心引力因子「的方法解決了此問題。這種方法使用尺寸、形狀、和方位固定而位置不固定的邊界在散點圖進行分類,用一種優化算法根據每個類的引力因子將這個類的邊界位置固定下來。由於血液細胞個體差異很大,重心引力因子雖然可以調整尺寸,但是形狀和方位還是固定的,因此這種方法只適合於大多數具有共性的樣本的問題。
當出現個體差異的時候可以在散點圖上手動重新劃定邊界,US. Pat. No. 6944338 指出了一種自動的分類方法,用修改後的Koonst and Fukimaga算法尋找二維數據的分界線即二維數據的波谷,使用這些分界線分別將落在同一區域中的粒子歸為一類,以此將粒子分成多個類別。這種方法的局限性散點圖上的數據不連續,非常離散,很多點周圍沒有數據,此算法會對這些點尋找邊界並最終將它們歸為單獨一類,而實際上這些點不是一類而是某個大類的,只不過這些粒子比較分散而已;即使採樣格數據平滑也很難解決問題,平滑的越厲害,計算出來的波谷到原始數據上出現的偏差越大;此算法對二維散點圖上的每個點都進行一次運算,但是實際上散點圖上真正有效的點並不多,有很多的區域都沒有數據,二維的散點圖實際上一個稀疏矩陣,如果對每個點都進行查找會導致算法的效率下降。
國內CN1012^190A公開了一種流式細胞術的自動分類方法和裝置,使用了一種層次聚類的分類方法來分類粒子的類別。通過計算所有有效細胞或者粒子每兩個粒子的有效距離,查找出距離最小的兩個細胞或者粒子,用於將查找出的最小的細胞或者粒子合併到一個維數相同的新類中,用於在距離集合中刪除與該細胞粒子相關的距離,用於計算新類與其他類粒子或者細胞之間的相關距離,每一個粒子都要找到與其最近的距離, 計算距離的計算量是(N*N*(N+1)/2)*0(N1),使用k均值聚類方法計算距離的計算量是 (3*N)*n*0(N~2),η次迭代結束,N總共的粒子數量,缺點是運算速度慢。發明內容
本發明提供一種粒子自動分類方法,解決以上重疊區域的粒子分類出現偏差和速度慢的問題,自動調整粒子的邊界,大小和方向,提高對異常樣本的適應能力和準確性。
本發明採取的技術方案是,包括以下步驟
Al、根據得到的每個細胞或粒子逐一通過光照區域時產生的至少兩路光信號,將每個細胞或者粒子表示為每一個與其光信號強度相關的、至少二維的特徵向量;
Bi、計算所有有效細胞或粒子與其每一類中心細胞的距離,即距離越近,每一類細胞或粒子之間的相似程度越高;
Cl、直到每一類細胞的中心位置與前一次中心位置小於一個足夠小的值時,每一類的細胞或者粒子的相似程度達到最高;
D1、反覆步驟Cl,至少將所有有效細胞或者粒子聚類成符合樣本的測量原理所應有的類別數。
本發明一種實施方式是在步驟Al之後,步驟Bl之前包括如下步驟設定閾值, 將不符合閾值條件或者和周圍數據差異很大的細胞或者粒子去掉。
本發明一種實施方式是所述Bl中距離用選自於歐式距離、絕對距離、最大距離、 最小距離、Minkowski距離、Chebyshev距離,方差加權距離和馬氏距離中的任意一種方法來計算細胞或者粒子之間的距離。
本發明一種實施方式是所述步驟Cl中採用的聚類方法是一種k均值聚類方法, 該k均值聚類方法包括以下步驟
Cll、k均值聚類的初始中心採用了一種中心對稱的高斯核,此高斯核適用於任意維度的數據,高斯核和圖像的有效數據進行卷積,得到此數據的平滑效果圖,再找到其每一類峰值作為初始的中心;
C12、計算出每一個有效細胞或者粒子與初始中心的距離,找到其距離的最小的細胞或者粒子;
C13、將該細胞或者粒子合併成與其最近的中心的一類;
C14、計算出中心,反覆上述步驟C12,C13 ;
C15、直到其中心位置和前一次的中心位置小於一個很小的值時,聚類結束。
本發明一種實施方式是在所述的步驟Cll中,選擇的高斯核一種基於中心對稱、 旋轉不變性、適用於任意維度的有效數據的濾波核函數。
本發明一種實施方式是在所述的步驟C12中,在合併過程中沒有記錄坐標,而是記錄其要合併的編號。
本發明一種實施方式是在所述步驟Dl中,最後將所有有效細胞或者粒子聚集成為符合測量原理的類。
本發明一種實施方式是所述Dl之後還包括以下步驟
E1、進行聚類結束評價,確定此類別數和測量原理的類別數是否相符。
本發明一種實施方式是所屬步驟El包括如下步驟
E11、如果此類別數c和測量原理M不符,即初始中心的選擇有誤,縮小核的大小重新確定中心,迭代超過一定次數後,還是不收斂,根據公式& =-α)計算每個類內的離差平方和,其中&為的類內的離差平方和,Xi為類內的第i個細胞或者粒子的特徵數據向量(Xn,Xi2, Xi3,.. . Χ ρΓ,Χ^^ 內的中心;
Ε12、計算樣本分成c個類時各類內的類內離差平方和在求和值和P ;
Ε13、離差平方和P是漸進下降之後上升的曲線,通過找到其最小值作為收斂次數。
本發明的有益效果是(1)本發明對流過的所有粒子的二維或者多維數據的集合進行分析處理,將某粒子歸到某個類中,基於數據進行分析尋找邊界,不是一維直方圖,或者二維散點圖,因此適合更多維的數據,相當於這種自動聚類的方法所產生的邊界更能隨樣本的不同而不同,克服了散點圖上使用固定方向的旋轉來找到波谷值更能適應樣本的不同變化,不能針對被測樣本的特異性進行邊界調整的缺陷。本發明只對粒子的數據進行計算,沒有粒子的地方不參與計算。O)CN1012^190A層次聚類的方法反覆計算所有有效細胞的粒子兩兩之間的距離,距離越近,相似程度越高,將相似程度高的粒子或者細胞聚為一類,而本發明採用的方法的距離是選擇樣本點與中心的距離,距離的計算量減少了,節省了時間,提高了效率,CN1012^190A層級聚類的方法尤其通過設置譜系係數,來選擇聚為幾類,譜系係數選擇不當,很容易聚為一類、而本發明聚為幾類,是根據初始中心的選擇,初始中心的選擇是根據整體樣本的差異性進行選擇,更適合粒子或者細胞的分類。(3)本發明首先刪除了一些不合理的數據,這些不合理的數據包括一些差異性或者不需要計算的數據, 減少了計算量,提高了效率。
圖1是白細胞散點圖2是固定閾值方法分類的示意圖3是白細胞散點各分類中心;
圖4是流式細胞技術示意圖5是白細胞三維立體直方圖6是白細胞二維數據波谷分類的示意圖7是白細胞一維濾波直方圖8是白細胞一維數據波谷分類線;
圖9是形態學的方法的每一類的中心位置;
圖10是白細胞分類結果圖。
具體實施方式
包括以下步驟
Al、根據得到的每個細胞或粒子逐一通過光照區域時產生的至少兩路光信號,將每個細胞或者粒子表示為每一個與其光信號強度相關的、至少二維的特徵向量;
Bi、計算所有有效細胞或粒子與其每一類中心細胞的距離,即距離越近,每一類細胞或粒子之間的相似程度越高;
Cl、直到每一類細胞的中心位置與前一次中心位置小於一個足夠小的值時,每一類的細胞或者粒子的相似程度達到最高;
D1、反覆步驟Cl,至少將所有有效細胞或者粒子聚類成符合樣本的測量原理所應有的類別數。
本發明一種實施方式是在步驟Al之後,步驟Bl之前包括如下步驟設定閾值, 將不符合閾值條件或者和周圍數據差異很大的細胞或者粒子去掉。
本發明一種實施方式是所述Bl中距離用選自於歐式距離、絕對距離、最大距離、 最小距離、Minkowski距離、Chebyshev距離,方差加權距離和馬氏距離中的任意一種方法來計算細胞或者粒子之間的距離。
本發明一種實施方式是所述步驟Cl中採用的聚類方法是一種k均值聚類方法, 該k均值聚類方法包括以下步驟
Cll、k均值聚類的初始中心採用了一種中心對稱的高斯核,此高斯核適用於任意維度的數據,高斯核和圖像的有效數據進行卷積,得到此數據的平滑效果圖,再找到其每一類峰值作為初始的中心;
C12、計算出每一個有效細胞或者粒子與初始中心的距離,找到其距離的最小的細胞或者粒子;
C13、將該細胞或者粒子合併成與其最近的中心的一類;
C14、計算出中心,反覆上述步驟C12,C13 ;
C15、直到其中心位置和前一次的中心位置小於一個很小的值時,聚類結束。
本發明一種實施方式是在所述的步驟Cll中,選擇的高斯核一種基於中心對稱、 旋轉不變性、適用於任意維度的有效數據的濾波核函數。
本發明一種實施方式是在所述的步驟C12中,在合併過程中沒有記錄坐標,而是記錄其要合併的編號。
本發明一種實施方式是在所述步驟Dl中,最後將所有有效細胞或者粒子聚集成為符合測量原理的類。
本發明一種實施方式是所述Dl之後還包括以下步驟
E1、進行聚類結束評價,確定此類別數和測量原理的類別數是否相符。
本發明一種實施方式是所屬步驟El包括如下步驟
E11、如果此類別數c和測量原理M不符,即初始中心的選擇有誤,縮小核的大小重新確定中心,迭代超過一定次數後,還是不收斂,根據公式& =-α)計算每個類內的離差平方和,其中&為的類內的離差平方和,Xi為類內的第i個細胞或者粒子的特徵數據向量(Xn,Xi2, Xi3,.. . Χ ρΓ,Χ^^ 內的中心;
Ε12、計算樣本分成c個類時各類內的類內離差平方和在求和值和P ;
Ε13、離差平方和P是漸進下降之後上升的曲線,通過找到其最小值作為收斂次數。
以下將結合在血液細胞分析儀中的應用來說明。
血液細胞分析儀可以檢測血液中的白細胞、紅細胞、血小板、血紅蛋白等參數的數量。只有對於白細胞四分類的檢測,使用了光學散射法的原理,通過吸入一定量的血細胞並與一定量的試劑作用,血樣流過充滿稀釋液的流動室中,在稀釋液形成的鞘液包裹下,細胞單個排列成排的流過流動室的中央,懸浮在鞘液中的細胞經過二次加速,通過雷射檢測區域,血細胞受到雷射的照射,產生的散射光性質與細胞大小、細胞膜和細胞內部結構的折射率有關,小角度前向散射光反映了細胞的大小,大角度前向散射光反映了細胞的內部的複雜度信息。光電二極體接收這些散射光信號並轉換為電脈衝,根據收到的電脈衝可以得到細胞的大小和複雜度的散點圖。其餘的測試分別採用了電阻抗、電阻抗和SLS法。電阻抗法紅細胞\血小板經過稀釋後進入具有小孔檢測單元,小孔兩側有正負電極,細胞不是很好的導體,當細胞進入小孔時,電極間的直流電阻發生變化,會在兩端形成與細胞體積大小變化的信號。SLS法在比色池中,被稀釋的樣本進入溶血劑後紅細胞溶解,釋放出血紅蛋白,血紅蛋白與溶血劑形成血紅蛋白複合物,在比色池一端LED光照射通過波長為525nm的單色發光管照射血紅蛋白複合物,另一端用光電管接收透射光,光信號放大轉化為電壓信號,通過與比色池只有稀釋液透過LED產生的光信號轉化為放大電壓信號的比較,得到樣本的血紅蛋白濃度。而只有白細胞四分類的檢測,即白細胞四分類包括淋巴細胞(Lym)、單核細胞 (Mono)、嗜酸性細胞(Eos)和中性粒細胞(Neut)這四種白細胞的分類才能使用上述提到的方法,通過對這四種細胞分別計數來計算每一類的百分比,來達到醫學臨床檢驗診斷的目的。在這張散點圖上,也存在著影細胞((ihost)。人們通常對血液中的淋巴細胞、單核細胞、 中性粒細胞、噬酸細胞比較感興趣,需要對這幾種細胞進行分類統計,計算每一種細胞的數目和百分比,進而實現散點圖的分類、計數。本發明具體實施內容就是對以上提到的5種粒子細胞進行分類。以圖1顯示的散點圖的數據為基本原始數據。具體實施步驟如下
粒子分類統計方法包括收集每個粒子在檢測儀中產生的至少兩種特徵的信號採集單元,用於選擇其中的兩種特徵表徵為二維向量並映射到二維散點圖上的映射單元,用於在散點圖上找到用於聚類的初始中心單元,開始聚類單元,聚類結束單元,統計各個區域的粒子個數的統計單元。
本實施實例中,對白細胞進行分類的方法包括以下步驟
1.在血細胞分析儀中,光照射血液樣本的白細胞,收集到的白細胞至少兩個方向的光信號,通常選擇兩個方向的光信號(例如前向小角度散射光,前向大角度散射光),將兩個方向的信號通過光電轉換和AD轉換,得到對應的細胞的二維數據,將此數據映射到二維直角坐標系,形成白細胞散點圖。
2.在散點圖中,並不是每個數據點都是白細胞,有些數據點是血液中的紅細胞碎片或者噪聲產生的,這些無效數據點,通過使用固定閾值的方法將他們去掉,獲得散點圖中感興趣的細胞。
3.選擇初始的聚類中心,可以採用二維高斯濾波即採用了一種中心對稱的高斯核,此高斯核適用於任意維度的數據,高斯核和圖像的有效數據進行卷積,得到此數據的平滑效果圖,(一維直方圖數據濾波)找到的波峰值作為初始中心,具體過程
a)統計每一個坐標點的個數(xl,yl, nl),(x2, y2, n2),(x3, y3, n3),· · ·;
b)使用高斯核函數卷積a)提到的所有點的個數;
c)找到其三個波峰的初始位置作為聚類的初始中心召夕1,^3J3;
4.聚類單元
a)計算出每一個有效細胞或者粒子與初始中心的距離,找到其距離的最小的細胞或者粒子;
Min
Distance (xl - jd)2 + (yl - Jlf, (x2 - x2f + (y2 - y2f, (x3 - x3)2 + (y3 - y3)2 ;
b)將該細胞或者粒子合併成與其最近的中心的一類;
Xl(xl,yl),X2(x2,y2),X3(x3,y3),X4(x4,y4)...;
c)反覆上述步驟a,b,計算出中心;
假設重複步驟a,b後,淋巴細胞有Ml個數據點,單核細胞有M2個數據點,中性粒細胞有M3個數據點,對每個區域進行一下計算(i = 1,2,3...)— γ Ml— \ Mlrnnflnn x^ = 7 ~Σηνχν,九=7 ~Σn'j-y'j _0]Σ ,=1Yjfly ^;=1 ;=1
d)反覆迭代,直到兩次的聚類中心變化最小為止,最終至少將所有有效細胞或者粒子聚類成符合樣本的測量原理所應有的類別數。
5聚類結束評價單元
如果此類別數c和測量原理M不符,即初始中心的選擇有誤,縮小核的大小重新確定中心,迭代超過一定次數後,還是不收斂,根據公式& =-α)計算每個類內的離差平方和,其中&為(ik的類內的離差平方和,Xi為類內的第i個細胞或者粒子的特徵數據向量(Xil,Xi2,xi3,... Xip)τ, 是(\內的中心;
計算樣本分成c個類時各類內的類內離差平方和在求和值P ;
離差平方和P是漸進下降之後上升的曲線,通過找到其最小值作為收斂次數。
統計各個區域的細胞個數,對散點圖進行分類、計數,統計每一類細胞的百分比信肩、ο
由於各類粒子邊界的尺寸、形狀、方向和位置不是固定的,而是隨著該類粒子的分布的實際情況變化的,因此本文適應各種粒子的個體差異,自動調整邊界的尺寸、方向、形狀和位置,具有很強的適應能力。
以上所述為本文的優選實施例,並非因此限制本文的專利範圍,凡是利用本文說明書及附圖內容所作的等效結構或等效流程變換,或直接或間接運用在其他相關的技術領域,均同理包括在本文的專利保護範圍內。
權利要求
1.一種粒子自動分類方法,其特徵在於包括如下步驟Al、根據得到的每個細胞或粒子逐一通過光照區域時產生的至少兩路光信號,將每個細胞或者粒子表示為每一個與其光信號強度相關的、至少二維的特徵向量;Bi、計算所有有效細胞或粒子與其每一類中心細胞的距離,即距離越近,每一類細胞或粒子之間的相似程度越高;Cl、直到每一類細胞的中心位置與前一次中心位置小於一個足夠小的值時,每一類的細胞或者粒子的相似程度達到最高;D1、反覆步驟Cl,至少將所有有效細胞或者粒子聚類成符合樣本的測量原理所應有的類別數。
2.如權利要求1所述的粒子自動分類方法,其特徵在於,在步驟Al之後,步驟Bl之前包括如下步驟設定閾值,將不符合閾值條件或者和周圍數據差異很大的細胞或者粒子去掉。
3.如權利要求1所述的粒子自動分類方法,其特徵在於步驟Bl中距離用選自於歐式距離、絕對距離、最大距離、最小距離、Minkowski距離、Chebyshev距離、方差加權距離和馬氏距離中的任意一種方法來計算細胞或者粒子之間的距離。
4.如權利要求3所述的粒子自動分類方法,其特徵在於所屬步驟Cl中採用的聚類方法是一種k均值聚類方法,所述的k均值聚類方法包括以下步驟Cll、k均值聚類的初始中心採用了一種中心對稱的高斯核,此高斯核適用於任意維度的數據,高斯核和圖像的有效數據進行卷積,得到此數據的平滑效果圖,再找到其每一類峰值作為初始的中心;C12、計算出每一個有效細胞或者粒子與初始中心的距離,找到其距離的最小的細胞或者粒子;C13、將該細胞或者粒子合併成與其最近的中心的一類; C14、計算出中心,反覆上述步驟C12,C13 ;C15、直到其中心位置和前一次的中心位置小於一個很小的值時,聚類結束。
5.如權利要求4所述的粒子自動分類方法,其特徵在於在所述的步驟Cll中,選擇的高斯核一種基於中心對稱、旋轉不變性、適用於任意維度的有效數據的濾波核函數。
6.如權利要求4所述的流式細胞術的自動分類方法,其特徵在於在所述的步驟C12 中,在合併過程中記錄其要合併的編號。
7.如權利要求1至6中任一項所述粒子自動分類方法,其特徵在於在所述步驟Dl中, 最後將所有有效細胞或者粒子聚集成為符合測量原理的類。
8.如權利要求7所述粒子自動分類方法,其特徵在於所述Dl之後還包括以下步驟 E1、進行聚類結束評價,確定此類別數和測量原理的類別數是否相符。
9.如權利要求8所述的粒子自動分類方法,其特徵在於所屬步驟El包括如下步驟 E11、如果此類別數c和測量原理M不符,即初始中心的選擇有誤,縮小核的大小重新確定中心,迭代超過一定次數後,還是不收斂,根據公式& =—Α)計算每個類內的離差平方和,其中&為(ik的類內的離差平方和,Xi為類內的第i個細胞或者粒子的特徵數據向量(Xil,Xi2,xi3,... XipAXi^ 內的中心;E12、計算樣本分成c個類時各類內的類內離差平方和在求和值和P ;E13、離差平方和P是漸進下降之後上升的曲線,通過找到其最小值作為收斂次數。
全文摘要
本發明涉及一種粒子自動分類方法,屬於粒子分類方法。包括以下步驟通過收集粒子檢測儀散射光信號獲得至少兩種特徵信息、將粒子至少兩種特徵信息分別映射為二維散點圖、在二維散點圖上進行高斯濾波、通過選擇高斯濾波的峰值作為均值聚類的初始值、使用均值聚類對二維散點圖數據進行聚類、根據聚類的結果計算各個區域的粒子個數,統計每一個區域的粒子個數的百分比。本發明能調整區域的邊界位置,形狀,方向和大小,具有很強的準確性和穩定性,提高了散點圖對各種樣本的適應能力。
文檔編號G01N15/10GK102507417SQ201110387439
公開日2012年6月20日 申請日期2011年11月29日 優先權日2011年11月29日
發明者丁立明, 孫媛媛, 宋潔, 朱海波 申請人:長春迪瑞醫療科技股份有限公司