新四季網

一種分類評估方法、裝置、可讀存儲介質及電子設備與流程

2024-04-12 19:16:05



1.本發明涉及數據處理領域,且更具體地,涉及一種分類評估方法、裝置、可讀存儲介質及電子設備。


背景技術:

2.在數據時代,常常需要對數據進行分類處理,以對分屬於不同類別的數據進行不同的後續處理。通常情況下,在對數據進行分類處理後,需要對分類結果進行評估,以確定是否需要對使用的分類策略進行調整。目前,常常通過計算類中心距離的方式對分類結果進行評估,然而在數據分布複雜時,難以準確地對分類結果進行評估。


技術實現要素:

3.本發明提供了一種分類評估方法、裝置、計算機可讀存儲介質及電子設備,以解決現有技術中在樣本分布較為複雜時,對分類結果的評估準確性較差的技術問題。
4.根據本發明的第一方面,提供了一種分類評估方法,包括:
5.基於預設的分類策略對待分類數據進行分類處理,得到所述待分類數據對應的預測分類標籤,所述待分類數據包括至少一個分類特徵;
6.針對每一分類特徵,確定所述分類特徵的第一貢獻值和第二貢獻值;所述第一貢獻值用於指示所述分類特徵對所有待分類數據的重要程度;一個所述第二貢獻值用於指示所述分類特徵對一個待分類數據的重要程度;
7.基於所述第一貢獻值和所述第二貢獻值,確定每一待分類數據的表徵值;所述表徵值用於指示所述待分類數據在所屬的預測分類標籤對應的分類類別中的分布位置;
8.針對每一類預測分類標籤,基於所述表徵值和確定的分割閾值,在所述預測分類標籤對應的第一待分類數據中識別出類重疊數據;
9.基於所述類重疊數據對所述分類策略進行評估,確定所述分類策略對應的分類評估結果。
10.可選地,所述基於所述第一貢獻值和所述第二貢獻值,確定每一待分類數據的表徵值,包括:
11.對所述第一貢獻值進行歸一化處理,確定每一分類特徵的第三貢獻值;
12.針對每一待分類數據,基於所述第三貢獻值與所述待分類數據對應的每一第二貢獻值,確定所述待分類數據的所述表徵值。
13.可選地,所述針對每一類預測分類標籤,基於所述表徵值和確定的分割閾值,在所述預測分類標籤對應的第一待分類數據中識別出類重疊數據,包括:
14.針對每一類預測分類標籤:
15.確定所述預測分類標籤對應的所述分割閾值;並確定所述預測分類標籤對應的表徵值均值;
16.將所述預測分類標籤的表徵值均值與其他預測分類標籤的表徵值均值進行比較,
以確定目標選取方向;
17.基於所述目標選取方向,將所述分割閾值與所述預測分類標籤對應的第一待分類數據的表徵值進行比較,以在所述第一待分類數據中識別出類重疊數據。
18.可選地,在所述預測分類標籤的數量為兩個的情況下,所述將所述預測分類標籤的表徵值均值與其他預測分類標籤的表徵值均值進行比較,以確定目標選取方向,包括:
19.在所述預測分類標籤的表徵值均值大於或等於其他預測分類標籤的表徵值均值的情況下,將小於所述分割閾值的方向確定為目標選取方向;
20.所述基於所述目標選取方向,將所述分割閾值與所述預測分類標籤對應的第一待分類數據的表徵值進行比較,以在所述第一待分類數據中識別出類重疊數據,包括:
21.基於所述目標選取方向,將所述分割閾值與所述第一待分類數據的表徵值進行比較,選取出所述表徵值小於所述分割閾值的第二待分類數據,將所述第二待分類數據確定為所述類重疊數據。
22.可選地,在所述預測分類標籤的數量為兩個的情況下,所述將所述預測分類標籤的表徵值均值與其他預測分類標籤的表徵值均值進行比較,以確定目標選取方向,包括:
23.在所述預測分類標籤的表徵值均值小於其他預測分類標籤的表徵值均值的情況下,將大於所述分割閾值的方向確定為目標選取方向;
24.所述基於所述目標選取方向,將所述分割閾值與所述預測分類標籤對應的第一待分類數據的表徵值進行比較,以在所述第一待分類數據中識別出類重疊數據,包括:
25.基於所述目標選取方向,將所述分割閾值與所述第一待分類數據的表徵值進行比較,選取出所述表徵值大於或等於所述分割閾值的第三待分類數據,將所述第三待分類數據確定為所述類重疊數據。
26.可選地,所述針對每一分類特徵,確定所述分類特徵的第一貢獻值和第二貢獻值,包括:
27.將所述至少一個分類特徵和所述預測分類標籤輸入集成樹模型,得到訓練結果;
28.將所述訓練結果輸入解釋模型,得到所述解釋模型輸出的解釋結果;
29.基於所述解釋模型輸出的解釋結果,確定所述第一貢獻值和所述第二貢獻值。
30.可選地,所述基於所述解釋模型輸出的解釋結果,確定所述第一貢獻值和所述第二貢獻值;
31.將所述解釋模型輸出的解釋結果作為所述第二貢獻值;
32.將每一分類特徵對應的所述第二貢獻值的絕對值的均值確定為所述第一貢獻值。
33.根據本發明的第二方面,提供了一種分類評估裝置,包括:
34.數據獲取模塊,用於基於預設的分類策略對待分類數據進行分類處理,得到所述待分類數據對應的預測分類標籤,所述待分類數據包括至少一個分類特徵;
35.貢獻值確定模塊,用於針對每一分類特徵,確定所述分類特徵的第一貢獻值和第二貢獻值;所述第一貢獻值用於指示所述分類特徵對所有待分類數據的重要程度;一個所述第二貢獻值用於指示所述分類特徵對一個待分類數據的重要程度;
36.表徵值確定模塊,用於基於所述第一貢獻值和所述第二貢獻值,確定每一待分類數據的表徵值;所述表徵值用於指示待分類數據在所屬的預測分類標籤對應的分類類別中分別位置;
37.分類評估模塊,用於針對每一類預測分類標籤,基於所述表徵值和確定的分割閾值,在所述預測分類標籤對應的第一待分類數據中識別出類重疊數據;
38.數據評估模塊,用於基於所述類重疊數據對所述分類策略進行評估,確定所述分類策略對應的分類評估結果。
39.根據本發明的第三方面,提供了一種計算機可讀存儲介質,所述存儲介質存儲有電腦程式,所述電腦程式用於執行上述分類評估方法。
40.根據本發明的第四方面,提供了一種電子設備,所述電子設備包括:
41.處理器;
42.用於存儲所述處理器可執行指令的存儲器;
43.所述處理器,用於從所述存儲器中讀取所述可執行指令,並執行所述指令以實現上述的分類評估方法。
44.與現有技術相比,本發明提供的分類評估方法、裝置、計算機可讀存儲介質及電子設備,至少包括以下有益效果:
45.本發明的技術方案通過預設的分類策略對待分類數據進行分類處理,得到待分類數據對應的預測分類標籤,其中,待分類數據包括至少一個分類特徵。然後針對每一分類特徵,確定分類特徵的第一貢獻值和第二貢獻值;其中,第一貢獻值用於指示分類特徵對所有待分類數據的重要程度,也就是說第一貢獻值會反映出各個分類特徵的特徵貢獻率;一個第二貢獻值用於指示分類特徵對一個待分類數據的重要程度,也就是說第二貢獻值會反映單個待分類數據中各個分類特徵的作用力情況。進而基於第一貢獻值和第二貢獻值,確定每一待分類數據的表徵值;表徵值用於指示待分類數據在所屬的預測分類標籤對應的分類類別中的分布位置,若某個待分類數據為類重疊數據,則該待分類數據的表徵值的分布位置與相同類別中非類重疊數據的分布位置差距明顯,因此表徵值的構建為準確地識別出類重疊數據提供了可能性。進一步針對每一類預測分類標籤,基於表徵值和確定的分割閾值,在預測分類標籤對應的第一待分類數據中識別出類重疊數據。利用分割閾值對表徵值進行分割處理,以從預測分類標籤對應的第一待分類數據中準確地識別出類重疊數據,即使在待分類數據分布較為複雜時,類重疊數據的識別精度較高,在獲取到類重疊數據後,利用類重疊數據對分類策略進行評估,確定出分類評估結果,該分類評估結果是根據準確的類重疊數據獲取的,具有較高的準確性,該分類評估結果對分類策略的調整提供了有力的數據支持。
附圖說明
46.為了更清楚地說明本的技術方案,下面將對本發明的描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
47.圖1是本發明一示例性實施例提供的分類評估方法的流程示意圖;
48.圖2是本發明一示例性實施例提供的分類評估方法中待分類數據分布示意圖;
49.圖3是本發明一示例性實施例提供的分類評估方法中待分類數據的表徵值分布圖;
50.圖4是本發明一示例性實施例提供的分類評估方法中識別結果示意圖;
51.圖5是本發明一示例性實施例提供的分類評估裝置的結構示意圖;
52.圖6是本發明一示例性實施例提供的電子設備的結構圖。
具體實施方式
53.下面將結合本中的附圖,對本發明中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部實施例。基於本發明中的實施例,本領域普通技術人員在沒有創造性勞動前提下所獲得的所有其他實施例,都屬於本實施例保護的範圍。
54.示例性方法
55.圖1是本發明一示例性實施例提供的分類評估方法的流程示意圖,至少包括如下步驟:
56.步驟10,基於預設的分類策略對待分類數據進行分類處理,得到所述待分類數據對應的預測分類標籤,所述待分類數據包括至少一個分類特徵。
57.其中,預設的分類策略是指預先設置的用於對數據進行分類處理的策略,如構建評分卡或構建分類模型。預測分類標籤為利用預設的分類策略對待分類數據進行分類處理後獲取到的分類結果,不同的預測分類標籤對應不同的類別,對應同一預測分類標籤的待分類數據為同一類別的待分類數據。分類特徵用於反映待分類數據,可以為對待分類數據進行特徵提取的結果,每一個待分類數據均具有至少一個分類特徵。具體地,預測分類標籤可以為2分類標籤,如「0」表徵一個類別,「1」表徵另一個類別。
58.步驟20,針對每一分類特徵,確定所述分類特徵的第一貢獻值和第二貢獻值;所述第一貢獻值用於指示所述分類特徵對所有待分類數據的重要程度;一個所述第二貢獻值用於指示所述分類特徵對一個待分類數據的重要程度。
59.其中,第一貢獻值用於指示分類特徵對所有待分類數據的重要程度,第一貢獻值考慮的是單一分類特徵和作為一個整體的所有待分類數據,是分類特徵對所有待分類數據的綜合評價,也就是說每個分類特徵均會存在一個第一貢獻值。若存在k個分類特徵,n個待分類數據,第一個分類特徵對n個待分類數據的重要程度為一個第一貢獻值,第二個分類特徵對n個待分類數據的重要程度為一個第一貢獻值,共存在k個第一貢獻值,進而第一貢獻值會反映出各個分類特徵的特徵貢獻率。
60.一個第二貢獻值用於指示分類特徵對一個待分類數據的重要程度,第二貢獻值考慮的是單一分類特徵和單一待分類數據,以單個待分類數據為對象,對每個分類特徵在單個待分類數據中的重要程度進行評價,也就是說第二貢獻值會反映單個待分類數據中各個分類特徵的作用力情況。若存在k個分類特徵,n個待分類數據,對於第一個分類特徵,第一個分類特徵對第一個待分類數據的重要程度為一個第二貢獻值,第一個分類特徵對第二個待分類數據的重要程度為一個第二貢獻值,第一個分類特徵對應有n個第二貢獻值,第二個分類特徵對應有n個第二貢獻值,因此共存在k*n個第二貢獻值。
61.在一實施例中,所述步驟20,包括:
62.步驟201,將所述至少一個分類特徵和所述預測分類標籤輸入集成樹模型,得到訓練結果;將所述訓練結果輸入解釋模型,得到所述解釋模型輸出的解釋結果。
63.步驟202,基於所述解釋模型輸出的解釋結果,確定所述第一貢獻值和所述第二貢
獻值。
64.其中,解釋模型為shap(shapley additive explanations,沙普利可加性模型解釋方法)解釋模型,shap解釋模型是python開發的一個「模型解釋」包,可以解釋任何機器學習模型的輸出。解釋模型輸出解釋結果即shap值,進一步根據shap值,確定第一貢獻值和第二貢獻值。
65.在一種可能的實現方式中,shap值可以用於指示每一分類特徵對每一待分類數據的重要程度,此時shap值即為第二貢獻值,因此將解釋模型輸出的shap值作為第二貢獻值。對第二貢獻值進行計算,得到第一貢獻值,將每一分類特徵對應的第二貢獻值的絕對值的均值確定為第一貢獻值,即將對應同一分類特徵的shap值的絕對值的均值確定為第二貢獻值。
66.舉例來說,對於n個待分類數據,k個分類特徵,利用shap解釋模型可以得到k

n維的shap值矩陣,shap值矩陣可以為:
[0067][0068]
其中,shap
11
表徵第一個分類特徵對第一個待分類數據的重要程度,為一個第二貢獻值;shap
1n
表徵第一個分類特徵對第n個待分類數據的重要程度,為一個第二貢獻值;shap
k1
表徵第k個分類特徵對第一個待分類數據的重要程度,為一個第二貢獻值;shap
kn
表徵第k個分類特徵對第n個待分類數據的重要程度,為一個第二貢獻值。
[0069]
進一步地,在k

n維的shap值矩陣中確定出所有待分類數據的第i個分類特徵的shap值的絕對值均值,作為第i個分類特徵的第一貢獻值,其中,i=1,..,k,利用fii表徵第i個分類特徵的第一貢獻值,則fii=e(|shap_valuei|)。
[0070]
具體地,將至少一個分類特徵和預測分類標籤輸入集成樹模型進行預訓練,然後將訓練得到的訓練結果輸入解釋模型,得到輸出的解釋結果,利用集成樹模型進行過渡處理,以使得解釋模型可以準確地進行模型解釋。
[0071]
在本實施例中,利用解釋模型對分類特徵對所有待分類數據和單一待分類數據的不同重要程度進行評估,準確地確定出第一貢獻值和第二貢獻值,有利於後續準確地識別出類重疊數據。
[0072]
步驟30,基於所述第一貢獻值和所述第二貢獻值,確定每一待分類數據的表徵值;所述表徵值用於指示所述待分類數據在所屬的預測分類標籤對應的分類類別中的分布位置。
[0073]
其中,利用第一貢獻值和第二貢獻值進行表徵值的構建。具體地,利用shap值進行表徵值的構建,以使得確定出的表徵值可以用於指示待分類數據在所屬的預測分類標籤對應的分類類別中的分布位置。在某個表徵值與相同類別中多數的表徵值分布位置相近時,該表徵值對應的待分類數據為非類重疊數據,在表徵值與相同類別中多數的表徵值明顯差距時,該表徵值對應的待分類數據為類重疊數據,類重疊數據即處於異類樣本區域內的待分類數據。因此構建出表徵值為準確地識別類重疊數據提供前提條件。
[0074]
示例性地,如圖2所示,其中上方區域的主體為藍色方框區域,藍色方框為「1」所代
表的類別,但在藍色方框區域內存在一個唯一的紅色圓點,該紅色圓點的為「0」所代表的類別,該紅色圓點代表一個類別,卻處於另一個類別的區域內,即為處於異類樣本區域內的類重疊數據。
[0075]
在一種可能的實現方式中,將第一貢獻值和某一待分類數據對應的各個第二貢獻值代入預設公式,將確定出的計算結果,確定為該待分類數據對應的表徵值。其中預設公式可以根據實際應用進行設計,對此本實施例不作具體限定。
[0076]
在一實施例中,所述步驟30,包括:
[0077]
步驟301,對所述第一貢獻值進行歸一化處理,確定每一分類特徵的第三貢獻值。
[0078]
步驟302,針對每一待分類數據,基於所述第三貢獻值與所述待分類數據對應的每一第二貢獻值,確定所述待分類數據的所述表徵值。
[0079]
在本實施例中,對第一貢獻值進行歸一化處理,以得到各個分類特徵的第三貢獻值,利用第三貢獻值進行表徵值的構建,可以更為客觀準確地確定出表徵值。在確定表徵值時,以每個待分類數據為單位對象,確定某個待分類數據的各個分類特徵對應的第二貢獻值,將相同分類特徵的第三貢獻值作用於第二貢獻值,以構建出該待分類數據的表徵值。
[0080]
具體地,若存在k個分類特徵,針對第i個待分類數據,確定第i個待分類數據對應的k個第二貢獻值,並進一步確定k個分類特徵分別對應的第三貢獻值,將相同分類特徵的第三貢獻值乘以第二貢獻值後的加和結果,確定為第i個待分類數據對應的表徵值。
[0081]
舉例來說,確定出k個分類特徵的第一貢獻值即k個分類特徵的重要程度分別為:
[0082]
fii=e(|shap_valuei|);
[0083]
即所有待分類數據第i個分類特徵shap值的絕對值均值,其中,i=1,..,k,對fii進行歸一化處理,得到norm_fi,norm_fi具體為:
[0084][0085]
其中,表徵第一個第三貢獻值,表徵第k個第三貢獻值。
[0086]
對於n個待分類數據,k個分類特徵,存在的shap值矩陣為:
[0087][0088]
在上述中的fii是各特徵在所有待分類數據上的總重要程度的體現,各待分類數據的各分類特徵shap值則代表了每個待分類數據內部各分類特徵的具體作用力情況,均反映了基於已知類別的情況下分類特徵的活躍程度與對預測分類標籤的影響程度。同時由shap值的性質得出::兩同類別待分類數據在k維特徵上的值與越接近,兩個待分類數據在該特徵維度上受到的具體作用力與是越相近的,所以特徵空間中距離越近的同類待分類數據具有越相似的shap值解釋。從而利用基於有監督訓練後的解釋模型,某類別的單個待分類數據在特徵空間中的類別表徵情況,可以利用各分類特徵重要程度的權重值(norm_fii)作為歸一化權重作用至相應分類特徵的shap值後加和統一表示,即得到
表徵值,各個待分類數據的表徵值組成的表徵值向量如下所示:
[0089][0090]
其中,上述表徵值向量包括每個待分類數據對應的表徵值。
[0091]
在一種可能的應用場景中,存在800個仿真待分類數據(類別比例為1:1),其分布如圖2所示,其中上方區域的主體為藍色方框區域,藍色方框為「1」所代表的類別,但在藍色方框區域內存在一個唯一的紅色圓點,該紅色圓點的為「0」所代表的類別,該紅色圓點代表一個類別,卻處於另一個類別的區域內,即為處於異類樣本區域內的類重疊數據;下方區域的主體為紅色圓點區域,但在紅色圓點區域內存在4個藍色方框(在圖2中已指明),這4個藍色方框代表一個類別,卻處於另一個類別的區域內,即為處於異類樣本區域內的類重疊數據。
[0092]
進一步地,利用sp值表示表徵值,對各個待分類數據的sp值進行繪圖,得到圖3,在圖3中存在4個區域,從上向下為class0所在的紅色小圓點區域,class1藍色方框區域,ol-class0紅色大圓點區域,ol-class1藍色叉號區域。
[0093]
將圖2和圖3進行對比可知,在圖2中,存在處於異類樣本區域內的類重疊數據,而圖3中可以明顯看出,這些類重疊數據的sp值分布明顯脫節於非類重疊的待分類數據,且位於兩類待分類數據sp值分布的中間位置,使得類重疊數據得到了很好的區分,這是由於利用了shap解釋模型得到的sp值是在已知類別分布方向的前提下對待分類數據在類別中所處位置的相對估計,使得sp值可以用於指示待分類數據對所屬類的表徵情況。
[0094]
步驟40,針對每一類預測分類標籤,基於所述表徵值和確定的分割閾值,在所述預測分類標籤對應的第一待分類數據中識別出類重疊數據。
[0095]
其中,分割閾值為確定出的對預測分類標籤對應的第一待分類數據的表徵值進行分割的數值,每一個預測分類標籤對應一個類別,每一個類別對應一個分割閾值,利用分割閾值對第一待分類數據進行分割,以在第一待分類數據中識別出類重疊數據。
[0096]
在一實施例中,利用分割閾值對第一待分類數據的表徵值進行分割,將第一待分類數據的表徵值分割為兩個區域,一個區域為非類重疊數據區域,一個為類重疊數據區域,位於類重疊數據區域內的待分類數據即為類重疊數據。
[0097]
具體地,利用最大類間方差法(otsu)的思想選擇出類重疊數據,若待分類數據為類重疊數據,則該待分類數據的表徵值與相同類別的非類重疊數據的表徵值差異較大。otsu方法是假設存在閾值t使得待分類數據分為兩類,均值分別為u1、u2,總體均值為u,同時被分為兩類的概率p1、p2,則存在:
[0098]
p1u1+p2u2=u;
[0099]
p1+p2=1;
[0100]
類別方差的公式為:σ2=p1(u
1-u)2+p2(u
2-u)2;
[0101]
使σ2最大化時的t即為能劃分出類中離群樣本的最優閾值,t即為本實施例中提及的分割閾值。
[0102]
在一實施例中,所述步驟40,包括:
[0103]
針對每一類預測分類標籤:
[0104]
步驟401,確定所述預測分類標籤對應的所述分割閾值;並確定所述預測分類標籤
對應的表徵值均值。
[0105]
具體地,利用最大類間方差法確定預測分類標籤對應的分割閾值。並對預測分類標籤的表徵值進行統計,確定出預測分類標籤對應的表徵值均值。
[0106]
步驟402,將所述預測分類標籤的表徵值均值與其他預測分類標籤的表徵值均值進行比較,以確定目標選取方向。
[0107]
具體地,本實施例中提及的所述預測分類標籤為正在針對的預測分類標籤,則非針對的預測分類標籤為其他預測分類標籤。例如,存在預測分類標籤a和預測分類標籤b,在確定a類中的類重疊數據時,a即為針對的預測分類標籤,b即為其他預測分類標籤,本步驟的實質為對各個預測分類標籤的表徵值均值進行比較,以確定出目標選取方向。
[0108]
在一實施例中,在所述預測分類標籤的數量為兩個的情況下,所述步驟402,包括:在所述預測分類標籤的表徵值均值大於或等於其他預測分類標籤的表徵值均值的情況下,將小於所述分割閾值的方向確定為目標選取方向。
[0109]
具體地,在預測分類標籤的數量為兩個、且預測分類標籤的表徵值均值大於或等於其他預測分類標籤的表徵值均值的情況下,此時表徵值較大的第一待分類數據可能大量聚集,表徵值較小的第一待分類數據遠離表徵值較大的第一待分類數據,可能為類重疊數據,因此將小於分割閾值的方向確定為目標選取方向,該目標選取方向的選取有利於準確地識別出類重疊數據。
[0110]
在一實施例中,在所述預測分類標籤的數量為兩個的情況下,所述步驟402,在所述預測分類標籤的表徵值均值小於其他預測分類標籤的表徵值均值的情況下,將大於所述分割閾值的方向確定為目標選取方向。
[0111]
具體地,在預測分類標籤的數量為兩個、且預測分類標籤的表徵值均值小於其他預測分類標籤的表徵值均值的情況下,此時表徵值較小的第一待分類數據可能大量聚集,表徵值較大的第一待分類數據遠離表徵值較小的第一待分類數據,可能為類重疊數據,因此將大於分割閾值的方向確定為目標選取方向,該目標選取方向的選取有利於準確地識別出類重疊數據。
[0112]
步驟403,基於所述目標選取方向,將所述分割閾值與所述預測分類標籤對應的第一待分類數據的表徵值進行比較,以在所述第一待分類數據中識別出類重疊數據。
[0113]
其中,對於某個預測分類標籤對應的第一待分類數據,分割閾值將該第一待分類數據的表徵值分割為兩個區域,目標選取方向在兩個區域中確定出一個選取區域,該選取區域內的待分類數據為在第一待分類數據中識別出的類重疊數據。
[0114]
在一實施例中,在預測分類標籤的數量為兩個,且將小於分割閾值的方向確定為目標選取方向的情況下,步驟403包括基於所述目標選取方向,將所述分割閾值與所述第一待分類數據的表徵值進行比較,選取出所述表徵值小於所述分割閾值的第二待分類數據,將所述第二待分類數據確定為所述類重疊數據。
[0115]
在本實施例中,將小於分割閾值的方向確定為目標選取方向,也就是在分割閾值將第一待分類數據的表徵值分割為兩個區域時,將較小的表徵值所在的區域作為選取區域。在第一待分類數據中選取出表徵值小於分割閾值的第二待分類數據,將選取出的第二待分類數據確定為類重疊數據。從而在該預測分類標籤對應的第一待分類數據中準確地識別出類重疊數據。當然,表徵值大於或等於分割閾值的第一待分類數據為非類重疊數據。
[0116]
在一實施例中,在預測分類標籤的數量為兩個,且將大於分割閾值的方向確定為目標選取方向的情況下,步驟403包括基於所述目標選取方向,將所述分割閾值與所述第一待分類數據的表徵值進行比較,選取出所述表徵值大於或等於所述分割閾值的第三待分類數據,將所述第三待分類數據確定為所述類重疊數據。
[0117]
在本實施例中,將大於分割閾值的方向確定為目標選取方向,也就是在分割閾值將第一待分類數據的表徵值分割為兩個區域時,將較大的表徵值所在的區域作為選取區域。在第一待分類數據中選取出表徵值大於或等於分割閾值的第三待分類數據,將第三待分類數據確定為類重疊數據。從而在該預測分類標籤對應的第一待分類數據中準確地識別出類重疊數據。當然,表徵值小於所述分割閾值的第一待分類數據為非類重疊數據。
[0118]
具體地,可以利用指示函數對目標選取方向進行指示。例如,在針對預測分類標籤a時,存在如下信息:
[0119][0120][0121][0122]
其中,a、b分別為兩個預測分類標籤,代表兩個類別,ola為a類中的類重疊數據集合,spa、spb分別為a類和b類的sp向量,xa為a類的待分類數據集合,i1、i2為指示函數,ta為根據otsu方法得到的a類的分割閾值,θ為哈達瑪積運算。
[0123]
將spa的表徵值均值即e(spa)與spb的表徵值均值即e(spb)進行比較,在e(spa)≥e(spb)的情況下,確定指示函數i1,根據i1可知,將第一待分類數據的表徵值與分類閾值進行比較,在第i個表徵值即spi大於或等於分割閾值的情況下,取值為0,即該spi為非類重疊數據;在第i個表徵值即spi小於分割閾值的情況下,取值為1,即該spi為類重疊數據。結合圖3進一步進行解釋,在e(spa)≥e(spb)的情況下,a類的待分類數據位於b類待分類數據的上方,即上半部分的class0的紅色小圓點區域和ol-class1的藍色方框區域,確定的a類的分割閾值進一步將上半部分分割為class0的紅色小圓點區域和ol-class1的藍色方框區域,聚集在一起的非類重疊數據為class0的紅色小圓點區域,class0的紅色小圓點區域對應的待分類數據的sp值大於或等於分割閾值;遠離非類重疊數據的類重疊數據為ol-class1的藍色方框區域,ol-class1的藍色方框區域對應的待分類數據的sp值小於分割閾值。
[0124]
進一步地,在e(spa)<e(spb)的情況下,確定指示函數i2,根據i2可知,將第一待分類數據的表徵值與分類閾值進行比較,在第i個表徵值即spi小於等於分割閾值的情況下,取值為0,即該spi為非類重疊數據;在第i個表徵值即spi大於或等於分割閾值的情況下,取值為1,即該spi為類重疊數據。結合圖3進一步進行解釋,在e(spa)<e(spb)的情況下,a類的待分類數據位於b類待分類數據的下方,即下半部分的class1的藍色叉號區域和ol-class0的紅色大圓點區域,確定的a類的分割閾值進一步將下半部分分割出class1的藍色叉號區域和ol-class0的紅色大圓點區域,而此時聚集在一起的非類重疊數據為class1的藍色叉
號區域,class1的藍色叉號區域對應的待分類數據的sp值小於分割閾值;遠離非類重疊數據的類重疊數據為ol-class0的紅色大圓點區域,ol-class0的紅色大圓點區域對應的待分類數據的sp值大於或等於分割閾值。
[0125]
進一步地,圖4示出了利用表徵值和分割閾值進行類重疊數據識別的識別結果圖,在圖4中的上方class1藍色方框區域中明確的識別出ol-class 0的紅色圓點。在下方的class0的紅色圓點區域中明確的識別出ol-class 1的藍色方框,也就是說利用表徵值和分割閾值可以準確地識別類重疊數據。
[0126]
需要說明的是,在預測分類標籤為3個及以上時,可以將3個預測分類標籤兩兩進行分組,並針對每一組中的兩個預測分類標籤,利用上述方法準確地識別出類重疊數據。
[0127]
步驟50,基於所述類重疊數據對所述分類策略進行評估,確定所述分類策略對應的分類評估結果。
[0128]
具體地,在確定出類重疊數據後,利用類重疊數據地分類策略進行評估,以準確地確定出分類評估結果。示例性地,確定類重疊數據的當前個數,預先對個數與分類級別(如優、合格、不合格)的映射表進行配置,從而在確定出當前個數後,根據該映射表,確定當前分類級別,將確定出的當前分類級別作為分類評估結果。當然也可以確定類重疊數據的當前個數,基於當前個數與待分類數據的總體個數,確定重疊度,重疊度低,表明分類策略較好,重疊度高表明仍需對分類策略進行調整。
[0129]
在一種可能的應用場景中,在應對黑產攻擊時,風控階段要上線相應的分類策略預測出風險用戶,利用本實施例提供的方法可以實現對分類策略的準確評估,對應分類效果較差的分類策略進行及時的幹預和調整,以減少不良策略,避免出現用戶誤傷的情況。
[0130]
在上述實施例中,通過預設的分類策略對待分類數據進行分類處理,得到待分類數據對應的預測分類標籤,其中,待分類數據包括至少一個分類特徵。然後針對每一分類特徵,確定分類特徵的第一貢獻值和第二貢獻值;其中,第一貢獻值用於指示分類特徵對所有待分類數據的重要程度,也就是說第一貢獻值會反映出各個分類特徵的特徵貢獻率;一個第二貢獻值用於指示分類特徵對一個待分類數據的重要程度,也就是說第二貢獻值會反映單個待分類數據中各個分類特徵的作用力情況。進而基於第一貢獻值和第二貢獻值,確定每一待分類數據的表徵值;表徵值用於指示待分類數據在所屬的預測分類標籤對應的分類類別中的分布位置,若某個待分類數據為類重疊數據,則該待分類數據的表徵值的分布位置與相同類別中非類重疊數據的分布位置差距明顯,因此表徵值的構建為準確地識別出類重疊數據提供了可能性。進一步針對每一類預測分類標籤,基於表徵值和確定的分割閾值,在預測分類標籤對應的第一待分類數據中識別出類重疊數據。利用分割閾值對表徵值進行分割處理,以從預測分類標籤對應的第一待分類數據中準確地識別出類重疊數據,即使在待分類數據分布較為複雜時,類重疊數據的識別精度較高,在獲取到類重疊數據後,利用類重疊數據對分類策略進行評估,確定出分類評估結果,該分類評估結果是根據準確的類重疊數據獲取的,具有較高的準確性,該分類評估結果對分類策略的調整提供了有力的數據支持。
[0131]
示例性裝置
[0132]
基於與本發明方法實施例相同的構思,本發明實施例還提供了一種分類評估裝置。
[0133]
圖5示出了本發明一示例性實施例提供的分類評估裝置的結構示意圖,包括:
[0134]
數據獲取模塊51,用於基於預設的分類策略對待分類數據進行分類處理,得到所述待分類數據對應的預測分類標籤,所述待分類數據包括至少一個分類特徵;
[0135]
貢獻值確定模塊52,用於針對每一分類特徵,確定所述分類特徵的第一貢獻值和第二貢獻值;所述第一貢獻值用於指示所述分類特徵對所有待分類數據的重要程度;一個所述第二貢獻值用於指示所述分類特徵對一個待分類數據的重要程度;
[0136]
表徵值確定模塊53,用於基於所述第一貢獻值和所述第二貢獻值,確定每一待分類數據的表徵值;所述表徵值用於指示待分類數據在所屬的預測分類標籤對應的分類類別中分布位置;
[0137]
數據識別模塊54,用於針對每一類預測分類標籤,基於所述表徵值和確定的分割閾值,在所述預測分類標籤對應的第一待分類數據中識別出類重疊數據;
[0138]
數據評估模塊55,用於基於所述類重疊數據對所述分類策略進行評估,確定所述分類策略對應的分類評估結果。
[0139]
在本發明一示例性實施例中,所述表徵值確定模塊,包括:
[0140]
歸一化處理單元,用於對所述第一貢獻值進行歸一化處理,確定每一分類特徵的第三貢獻值;
[0141]
表徵值確定單元,用於針對每一待分類數據,基於所述第三貢獻值與所述待分類數據對應的每一第二貢獻值,確定所述待分類數據的所述表徵值。
[0142]
在本發明一示例性實施例中,所述數據識別模塊,包括:
[0143]
數據確定單元,用於針對每一類預測分類標籤:確定所述預測分類標籤對應的所述分割閾值;並確定所述預測分類標籤對應的表徵值均值;
[0144]
比較處理單元,用於將所述預測分類標籤的表徵值均值與其他預測分類標籤的表徵值均值進行比較,以確定目標選取方向;
[0145]
數據識別單元,用於基於所述目標選取方向,將所述分割閾值與所述預測分類標籤對應的第一待分類數據的表徵值進行比較,以在所述第一待分類數據中識別出類重疊數據。
[0146]
在本發明一示例性實施例中,在所述預測分類標籤的數量為兩個的情況下,所述比較處理單元,進一步用於在所述預測分類標籤的表徵值均值大於等於其他預測分類標籤的表徵值均值的情況下,將小於所述分割閾值的方向確定為目標選取方向;
[0147]
所述分類評估單元,進一步用於基於所述目標選取方向,將所述分割閾值與所述第一待分類數據的表徵值進行比較,選取出所述表徵值小於所述分割閾值的第二待分類數據,將所述第二待分類數據確定為所述類重疊數據。
[0148]
在本發明一示例性實施例中,在所述預測分類標籤的數量為兩個的情況下,所述比較處理單元,進一步用於在所述預測分類標籤的表徵值均值小於其他預測分類標籤的表徵值均值的情況下,將大於所述分割閾值的方向確定為目標選取方向;
[0149]
所述分類評估單元,進一步用於基於所述目標選取方向,將所述分割閾值與所述第一待分類數據的表徵值進行比較,選取出所述表徵值大於或等於所述分割閾值的第三待分類數據,將所述第三待分類數據確定為所述類重疊數據。
[0150]
在本發明一示例性實施例中,所述貢獻值確定模塊,包括:
[0151]
輸入處理單元,用於將所述至少一個分類特徵和所述預測分類標籤輸入集成樹模型,得到訓練結果;將所述訓練結果輸入解釋模型,得到所述解釋模型輸出的解釋結果;
[0152]
貢獻值確定單元,用於基於所述解釋模型輸出的解釋結果,確定所述第一貢獻值和所述第二貢獻值。
[0153]
在本發明一示例性實施例中,所述貢獻值確定單元,進一步用於將所述解釋模型輸出的解釋結果作為所述第二貢獻值;將每一分類特徵對應的所述第二貢獻值的絕對值的均值確定為所述第一貢獻值。
[0154]
示例性電子設備
[0155]
圖6圖示了根據本發明實施例的電子設備的框圖。
[0156]
如圖6所示,電子設備60包括一個或多個處理器61和存儲器62。
[0157]
處理器61可以是中央處理單元(cpu)或者具有數據處理能力和/或指令執行能力的其他形式的處理單元,並且可以控制電子設備60中的其他組件以執行期望的功能。
[0158]
存儲器62可以包括一個或多個電腦程式產品,所述電腦程式產品可以包括各種形式的計算機可讀存儲介質,例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機存取存儲器(ram)和/或高速緩衝存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(rom)、硬碟、快閃記憶體等。在所述計算機可讀存儲介質上可以存儲一個或多個電腦程式指令,處理器61可以運行所述程序指令,以實現上文所述的本發明的各個實施例的分類評估方法以及/或者其他期望的功能。
[0159]
在一個示例中,電子設備60還可以包括:輸入裝置63和輸出裝置64,這些組件通過總線系統和/或其他形式的連接機構(未示出)互連。
[0160]
當然,為了簡化,圖6中僅示出了該電子設備60中與本發明有關的組件中的一些,省略了諸如總線、輸入/輸出接口等等的組件。除此之外,根據具體應用情況,電子設備60還可以包括任何其他適當的組件。
[0161]
示例性電腦程式產品和計算機可讀存儲介質
[0162]
第六方面,除了上述方法和設備以外,本發明的實施例還可以是電腦程式產品,其包括電腦程式指令,所述電腦程式指令在被處理器運行時使得所述處理器執行本說明書上述「示例性方法」部分中描述的根據本發明各種實施例的分類評估方法中的步驟。
[0163]
所述電腦程式產品可以以一種或多種程序設計語言的任意組合來編寫用於執行本發明實施例操作的程序代碼,所述程序設計語言包括面向對象的程序設計語言,諸如java、c++等,還包括常規的過程式程序設計語言,諸如「c」語言或類似的程序設計語言。程序代碼可以完全地在用戶計算設備上執行、部分地在用戶設備上執行、作為一個獨立的軟體包執行、部分在用戶計算設備上部分在遠程計算設備上執行、或者完全在遠程計算設備或伺服器上執行。
[0164]
此外,本發明的實施例還可以是計算機可讀存儲介質,其上存儲有電腦程式指令,所述電腦程式指令在被處理器運行時使得所述處理器執行本說明書上述「示例性方法」部分中描述的根據本發明各種實施例的分類評估方法中的步驟。
[0165]
所述計算機可讀存儲介質可以採用一個或多個可讀介質的任意組合。可讀介質可以是可讀信號介質或者可讀存儲介質。可讀存儲介質例如可以包括但不限於電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。可讀存儲介質的更具體的
例子(非窮舉的列表)包括:具有一個或多個導線的電連接、可攜式盤、硬碟、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或快閃記憶體)、光纖、可攜式緊湊盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。
[0166]
以上結合具體實施例描述了本發明的基本原理,但是,需要指出的是,在本發明中提及的優點、優勢、效果等僅是示例而非限制,不能認為這些優點、優勢、效果等是本發明的各個實施例必須具備的。另外,上述發明的具體細節僅是為了示例的作用和便於理解的作用,而非限制,上述細節並不限制本發明為必須採用上述具體的細節來實現。
[0167]
本發明中涉及的器件、裝置、設備、系統的方框圖僅作為例示性的例子並且不意圖要求或暗示必須按照方框圖示出的方式進行連接、布置、配置。如本領域技術人員將認識到的,可以按任意方式連接、布置、配置這些器件、裝置、設備、系統。諸如「包括」、「包含」、「具有」等等的詞語是開放性詞彙,指「包括但不限於」,且可與其互換使用。這裡所使用的詞彙「或」和「和」指詞彙「和/或」,且可與其互換使用,除非上下文明確指示不是如此。這裡所使用的詞彙「諸如」指詞組「諸如但不限於」,且可與其互換使用。
[0168]
還需要指出的是,在本發明的裝置、設備和方法中,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應視為本發明的等效方案。
[0169]
提供所發明的方面的以上描述以使本領域的任何技術人員能夠做出或者使用本發明。對這些方面的各種修改對於本領域技術人員而言是非常顯而易見的,並且在此定義的一般原理可以應用於其他方面而不脫離本發明的範圍。因此,本發明不意圖被限制到在此示出的方面,而是按照與在此發明的原理和新穎的特徵一致的最寬範圍。
[0170]
為了例示和描述的目的已經給出了以上描述。此外,此描述不意圖將本發明的實施例限制到在此發明的形式。儘管以上已經討論了多個示例方面和實施例,但是本領域技術人員將認識到其某些變型、修改、改變、添加和子組合。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀