新四季網

特徵提取方法、裝置、設備、可讀存儲介質及程序產品與流程

2024-04-13 11:43:05

1.本技術屬於模型解釋
技術領域:
:,尤其涉及一種特徵提取方法、裝置、設備、可讀存儲介質及程序產品。
背景技術:
::2.在分類模型的實際應用中,人們不僅希望得到分類模型的預測結果,更希望了解分類模型是如何得到預測結果的,基於此,可以通過模型解釋算法對分類模型進行解釋。一般來說,可以基於對分類模型的特徵影響解釋,更好地理解和分析特徵,進而提取到可解釋性特徵集來訓練得到更精準的分類模型。然而,目前基於模型解釋提取到的可解釋性特徵集存在準確性較低的缺陷。技術實現要素:3.本技術實施例提供一種特徵提取方法、裝置、設備、可讀存儲介質及程序產品,以提升基於模型解釋提取到的可解釋性特徵集的準確性。4.第一方面,本技術實施例提供一種特徵提取方法,方法包括:5.獲取訓練樣本集以及初始分類模型,初始分類模型由訓練樣本集訓練得到;6.將訓練樣本集和初始分類模型輸入至n個解釋模型中,得到各解釋模型輸出的第一解釋信息,各解釋模型輸出的第一解釋信息包括第一特徵集中各特徵的重要程度值,重要程度值用於指示各特徵對初始分類模型的預測結果的影響程度,n為大於1的整數;7.將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息,第二解釋信息包括第二特徵集中各特徵的融合重要程度值,第二特徵集包括n個解釋模型對應的第一特徵集中的相同特徵;8.根據第二特徵集中各特徵的融合重要程度值,提取目標特徵集,目標特徵集包括融合重要程度值滿足預設條件的目標特徵。9.第二方面,本技術實施例提供了一種特徵提取裝置,裝置包括:10.獲取模塊,用於獲取訓練樣本集以及初始分類模型,初始分類模型由訓練樣本集訓練得到;11.輸出模塊,用於將訓練樣本集和初始分類模型輸入至n個解釋模型中,得到各解釋模型輸出的第一解釋信息,各解釋模型輸出的第一解釋信息包括第一特徵集中各特徵的重要程度值,重要程度值用於指示各特徵對初始分類模型的預測結果的影響程度,n為大於1的整數;12.融合模塊,用於將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息,第二解釋信息包括第二特徵集中各特徵的融合重要程度值,第二特徵集包括n個解釋模型對應的第一特徵集中的相同特徵;13.提取模塊,用於根據第二特徵集中各特徵的融合重要程度值,提取目標特徵集,目標特徵集包括融合重要程度值滿足預設條件的目標特徵。14.第三方面,本技術實施例提供了一種電子設備,設備包括:15.處理器以及存儲有程序或指令的存儲器;16.處理器執行程序或指令時實現上述的方法。17.第四方面,本技術實施例提供了一種機器可讀存儲介質,機器可讀存儲介質上存儲有程序或指令,程序或指令被處理器執行時實現上述的方法。18.第五方面,本技術實施例提供了一種電腦程式產品,電腦程式產品中的指令由電子設備的處理器執行時,使得電子設備執行上述方法。19.本技術實施例的特徵提取方法、裝置、設備、可讀存儲介質及程序產品,能夠獲取訓練樣本集以及初始分類模型,初始分類模型由訓練樣本集訓練得到;將訓練樣本集和初始分類模型輸入至n個解釋模型中,得到各解釋模型輸出的第一解釋信息,各解釋模型輸出的第一解釋信息包括第一特徵集中各特徵的重要程度值;將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息,第二解釋信息包括第二特徵集中各特徵的融合重要程度值,第二特徵集包括n個解釋模型對應的第一特徵集中的相同特徵;根據第二特徵集中各特徵的融合重要程度值,提取目標特徵集,目標特徵集包括融合重要程度值滿足預設條件的目標特徵。20.這樣,可以結合考慮多個不同解釋模型輸出的第一解釋信息,融合得到更全面、客觀性更高的第二解釋信息,並可以基於第二解釋信息中的各特徵的融合重要程度值來提取目標特徵集,降低因單個解釋模型的解釋局限性導致各特徵的重要程度值有誤,影響到目標特徵集提取準確性的風險,有效保證了目標特徵集的準確性。附圖說明21.為了更清楚地說明本技術實施例的技術方案,下面將對本技術實施例中所需要使用的附圖作簡單的介紹,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。22.圖1是本技術一個實施例提供的特徵提取方法的流程示意圖;23.圖2是本技術一個實施例提供的特徵提取方法的場景實施例流程圖;24.圖3是本技術另一個實施例提供的特徵提取方法的場景實施例流程圖;25.圖4是本技術另一個實施例提供的特徵提取裝置的結構示意圖;26.圖5是本技術又一個實施例提供的電子設備的結構示意圖。具體實施方式27.下面將詳細描述本技術的各個方面的特徵和示例性實施例,為了使本技術的目的、技術方案及優點更加清楚明白,以下結合附圖及具體實施例,對本技術進行進一步詳細描述。應理解,此處所描述的具體實施例僅意在解釋本技術,而不是限定本技術。對於本領域技術人員來說,本技術可以在不需要這些具體細節中的一些細節的情況下實施。下面對實施例的描述僅僅是為了通過示出本技術的示例來提供對本技術更好的理解。28.需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括……」限定的要素,並不排除在包括要素的過程、方法、物品或者設備中還存在另外的相同要素。29.為了解決現有技術問題,本技術實施例提供了一種特徵提取方法、裝置、設備、可讀存儲介質及程序產品。下面首先對本技術實施例所提供的特徵提取方法進行介紹。30.圖1示出了本技術一個實施例提供的特徵提取方法的流程示意圖。如圖1所示,該方法包括:31.s110,獲取訓練樣本集以及初始分類模型。32.s120,將訓練樣本集和初始分類模型輸入至n個解釋模型中,得到各解釋模型輸出的第一解釋信息。33.s130,將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息。34.s140,根據第二特徵集中各特徵的融合重要程度值,提取目標特徵集。35.上述各個步驟的具體實現方式將在下文中進行詳細描述。36.在本技術實施例中,可以結合考慮多個不同解釋模型輸出的第一解釋信息,融合得到更全面、客觀性更高的第二解釋信息,並可以基於第二解釋信息中的各特徵的融合重要程度值來提取目標特徵集,降低因單個解釋模型的解釋局限性導致各特徵的重要程度值有誤,影響到目標特徵集提取準確性的風險,有效保證了目標特徵集的準確性。37.下面介紹上述各個步驟的具體實現方式。38.在s110中,訓練樣本集可以是待分類對象的歷史樣本數據,初始分類模型可以是機器學習模型,例如可以是決策樹模型、邏輯回歸模型、隨機森林模型或神經網絡模型等。初始分類模型可以由訓練樣本集通過機器學習訓練得到的。可以獲取該訓練樣本集以及該初始分類模型。39.在s120中,n個解釋模型可以是現有解釋模型中的任意多種解釋模型,如可以是偏相關圖(partialdependenceplots,pdp)、可加性解釋(shapleyadditiveexplanation,shap)、特徵重要性(featureimportance)、模型無關的局部解釋((localinterpretablemodel-agnosticexplanations,lime)等解釋算法對應的解釋模型中的任意多個解釋模型。在一些示例中,n個解釋模型可以包括pdp模型、shap模型和lime模型。40.可以將獲取到的訓練樣本集和初始分類模型輸入至n個解釋模型中,每個解釋模型可以對訓練樣本集中的至少一個特徵進行修改,初始分類模型可以基於修改前後的特徵分別輸出預測結果,通過分析比對修改前後的特徵對應的預測結果,可以確定第一解釋信息並輸出。41.作為一個示例,上述具體實現方式可以如圖2所示,將分類模型以及原始訓練樣本分別輸入至pdp模型、shap模型以及lime模型中,得到分類結果解釋,即第一解釋信息,第一解釋信息包括各特徵影響值、各特徵影響圖以及模型規則。42.可以基於各解釋模型的輸出結果得到各解釋模型輸出的第一解釋信息,第一解釋信息可以包括第一特徵集中各特徵的重要程度值,重要程度值用於指示各特徵對初始分類模型的預測結果的影響程度,重要程度值越大,可理解為特徵對預測結果影響越大。例如,若n個解釋模型包括pdp模型、shap模型和lime模型,各解釋模型輸出的第一解釋信息可以如表1所示:43.表1第一解釋信息示例表[0044][0045]其中,每個第一特徵集可以是每個解釋模型所輸出的所有特徵,也可以取影響程度滿足閾值的特徵的組合,也可以是將所有特徵根據重要程度值進行排序,取該解釋模型的前幾個特徵作為對應的第一特徵集。[0046]在s130中,可以將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息。其中,第二解釋信息可以包括第二特徵集中各特徵的融合重要程度值,第二特徵集可以包括對n個解釋模型對應的第一特徵集取併集的相同特徵,即相同特徵可以是在n個解釋模型對應的第一特徵集中均出現的特徵。[0047]示例地,針對第二特徵集中的每個特徵,可以基於該特徵在各解釋模型輸出的第一解釋信息中分別對應的重要程度值,融合處理後得到該特徵的融合重要程度值。[0048]例如,特徵a分別對應的重要程度值可以為a1、a2和a3,特徵a融合後的融合重要程度值可以為重要程度值的平均值,即為(a1+a2+a3)/3。特徵a融合後的融合重要程度值也可以為每個解釋模型對應的權重值與該解釋模型輸出的重要程度值的乘積之和,其中每個解釋模型對應的權重值可以是根據經驗值預先設定的數值,也可以是基於各解釋模型輸出的第一解釋信息確定的數值。特徵a融合後的融合重要程度值還可以採用其他現有融合算法計算得到,此處不作具體限定。[0049]在s140中,可以根據第二特徵集中各特徵的融合重要程度值,提取目標特徵集。示例地,可以提取融合重要程度值大於或等於預設重要程度值閾值的全部特徵作為目標特徵集。也可以將融合重要程度值從大到小進行排序,並提前排序靠前的預設數量的特徵作為目標特徵集。還可以從融合重要程度值大於或等於預設重要程度值閾值的全部特徵中隨機提取預設數量的特徵作為目標特徵集。具體提取方式可根據實際需求進行設定,此處不作具體限定。[0050]可以理解的是,提取到的目標特徵集可以用於訓練分類模型,從而可以得到預測結果更精準、算力消耗較低的分類模型,以實現優化初始分類模型的目的。[0051]為了過濾一些對解釋模型影響較小的特徵,從而降低融合過程的計算量,本技術實施例提供了s120的一種具體實現方式,該具體實現方式可以包括:[0052]將訓練樣本集和初始分類模型輸入至第一解釋模型中,第一解釋模型執行第一操作,輸出第一特徵集中各特徵的重要程度值。[0053]其中,第一操作包括:[0054]基於訓練樣本集和初始分類模型,確定訓練樣本集中所有特徵的重要程度值;[0055]對所有特徵的重要程度值由大到小進行排序,得到特徵序列;[0056]將特徵序列中的前k個特徵確定為第一特徵集,並獲取第一特徵集中各特徵的重要程度值。[0057]在上述具體實現方式中,可以將第一解釋模型對應的訓練樣本集和初始分類模型輸入至第一解釋模型中,第一解釋模型確定訓練樣本集中所有特徵重要程度值,再對所有特徵的重要程度值由大到小進行排序,得到特徵序列,選取特徵序列中前k個特徵作為第一特徵集。可以根據上述方法分別確定所有第一解釋模型的第一特徵集,從而得到n個第一特徵集。k的取值可以根據實際情況預先設定,例如k的取值可以為20~50。[0058]作為一個示例,首先將n個第一解釋模型對應的訓練樣本集和初始分類模型輸入至對應的第一解釋模型中,解釋模型確定所有特徵的重要程度值,將每個解釋模型的所有特徵分別根據重要程度值的大小進行排列,得到特徵序列,分別提取每個解釋模型各自前25個特徵作為該解釋模型對應的第一特徵集。[0059]如此,通過將解釋模型確定的重要程度值對應的所有特徵進行排序,選取前預設值個特徵,可以篩選掉對解釋模型影響較小的特徵,從而降低後續融合過程的計算量,節約算力。[0060]同理可知,在一些示例中,可以將n個解釋模型輸出的n個第一解釋信息進行融合處理時,也可以先獲取n個第一特徵集取併集的所有相同特徵的融合重要程度值,並將該所有相同特徵分別根據融合重要程度值的大小進行排列,得到融合特徵序列,選取融合特徵序列中前p個特徵作為第二特徵集。可以理解的是,p小於k,例如當k為25時,p可以為20。[0061]例如,如圖3所示,以n個解釋模型包括pdp模型、shap模型和lime模型為例,可以根據pdp模型的25個特徵解釋(即pdp模型輸出的25個特徵的重要程度值)、shap模型的25個特徵解釋(即shap模型輸出的25個特徵的重要程度值)和lime模型的25個特徵解釋(即lime模型輸出的25個特徵的重要程度值),進行特徵併集提取,並將提取到的相同特徵進行融合解釋(即對相同特徵在各解釋模型中的重要程度值進行融合),得到相同特徵的融合重要程度值。基於融合重要程度值的大小,可以保留融合重要程度值較大的前20個特徵,並輸出這20個特徵的融合重要程度值。為了更準確的得到融合後的第二解釋信息,本技術實施例還提供了s130的一種具體實現方式,該具體實現方式可以包括:[0062]根據n個第一特徵集中的相同特徵,確定第二特徵集;[0063]根據n個解釋模型輸出的n個第一解釋信息,確定第二特徵集中各特徵對應的n個重要程度值;[0064]根據n個解釋模型一一對應的n個權重值,以及第二特徵集中各特徵對應的n個重要程度值,確定第二特徵集中各特徵的融合重要程度值。[0065]在上述具體實現方式中,可以將所有相同特徵確定為第二特徵集,第二特徵集中各特徵對應的n個重要程度值可以是指該特徵分別在n個第一特徵集中對應的重要程度值。例如,特徵a對應的n個重要程度值可以分別為a1、a2和a3。[0066]可以將n個解釋模型一一對應的n個權重值分別與第二特徵集中各特徵對應的n個重要程度值進行加權求和,將加權求和後得到的值作為第二特徵集中各特徵的融合重要程度值。例如,pdp模型的權重值可以為w1,shap模型的權重值可以為w2,lime模型的權重值可以為w3。pdp模型中特徵a的重要程度值為a1,shap模型中特徵a的重要程度值為a2,lime模型中特徵a的重要程度值為a3。則特徵a的融合重要程度值可以等於a1*w1+a2*w2+a3*w3。[0067]可以理解的是,n個解釋模型一一對應的n個權重值可以是根據經驗值預先設定的權重值,也可以是基於每個解釋模型所輸出的第一解釋信息確定得到。[0068]如此,通過不同解釋模型的不同權重值,對第二特徵集中各特徵對應的n個重要程度值進行加權求和,可以使第二解釋信息中各特徵的融合重要程度值更加合理,從而更準確地得到第二解釋信息。[0069]為了更準確地確定各解釋模型的權重值,各解釋模型輸出的第一解釋信息還可以包括初始分類模型的預測規則,預測規則可以基於第一特徵集中各特徵的變化對初始分類模型的預測結果所產生的變化情況確定,在根據n個解釋模型一一對應的n個權重值,以及第二特徵集中各特徵對應的n個重要程度值,確定所述第二特徵集中各特徵的融合重要程度值之前,上述具體實現方式還可以包括:[0070]將初始分類模型以及訓練樣本集中各樣本分別輸入至n個解釋模型中,得到各解釋模型輸出的各樣本的解釋信息;[0071]根據各樣本的解釋信息,確定各解釋模型的解釋一致性;[0072]根據初始分類模型的預測規則對訓練樣本集進行預測,得到各解釋模型對應的預測結果;[0073]根據預測結果確定各解釋模型的規則命中率;[0074]根據解釋一致性和規則命中率,確定各解釋模型的權重值。[0075]在上述具體實現方式中,第一解釋信息還可以包括初始分類模型的預測規則,預測規則可以用於對訓練樣本集進行預測,得到各解釋模型對應的預測結果,預測規則可以基於第一特徵集中各特徵的變化對初始分類模型的預測結果所產生的變化情況確定。[0076]在一些示例中,還可以基於第一特徵集中各特徵的變化對初始分類模型的預測結果所產生的變化情況生成變化影響圖,第一解釋信息還可以包括第一特徵集中各特徵的變化影響圖,進而可以更直觀的反映出各解釋模型輸出的第一解釋信息,增加了各解釋模型對初始分類模型的可解釋性。[0077]如圖3所示,以n個解釋模型包括pdp模型、shap模型和lime模型為例,可以將初始分類模型以及訓練樣本集分別輸入至pdp模型、shap模型以及lime模型中,各解釋模型均可輸出第一解釋信息,第一解釋信息可以包括各特徵的重要程度值、變化影響圖以及初始分類模型的預測規則。[0078]在上述具體實現方式中,可以將初始分類模型以及訓練樣本集中各樣本分別輸入至n個解釋模型中,從而得到多個各解釋模型輸出的各樣本的解釋信息。[0079]解釋一致性是指對於兩個相似的樣本,其通過解釋模型預測得到的解釋信息也應當是接近相等的。基於此,可以通過比對每個解釋模型中任意兩個相似樣本的解釋信息來確定各解釋模型的解釋一致性。可以理解的是,任意兩個相似樣本的解釋信息越接近,則可以說明對應的解釋模型的解釋能力越強。[0080]根據初始分類模型的預測規則對訓練樣本集進行預測,得到各解釋模型對應的預測結果,例如,預測結果可以用於指示訓練樣本集中屬於目標對象的樣本,以及訓練樣本集中不屬於目標對象的樣本。可以根據預測結果確定各解釋模型的規則命中率。換而言之,可以根據某一解釋模型對應的預測規則對訓練樣本集進行預測,並可以基於預測結果確定該預測規則預測正確的概率,該正確的概率即為該解釋模型的規則命中率。[0081]可以理解的是,規則命中率越高,則可以說明預測規則的正確率越高,進而可以說明對應的解釋模型的解釋能力越強。[0082]可以是將每個解釋模型的解釋一致性和規則命中率,確定該解釋模型的權重值。可以理解的是,解釋模型的解釋能力越強,其對應的權重值可以越大,這樣,可以保證融合後的第二解釋信息的準確性。[0083]例如,以n個解釋模型包括pdp模型、shap模型和lime模型為例,根據解釋一致性和規則命中率,可以確定各解釋模型的權重值,可以包括如下步驟:[0084]a.分別計算pdp模型、shap模型、lime模型的解釋一致性和命中率。[0085]b.利用如下公式(1)對解釋一致性進行歸一化處理:[0086][0087]其中,sam*為各解釋模型歸一化後的解釋一致性,sam為各解釋模型的解釋一致性。[0088]c.利用如下公式(2)計算各解釋模型的解釋能力:[0089]ability=0.5*(1-sam*)+0.5*cor(2)[0090]其中,ability表示各解釋模型的解釋能力,sam*為各解釋模型歸一化後的解釋一致性,cor表示各解釋模型的規則命中率。[0091]d.利用如下公式(3)計算各解釋模型的權重值,以shap模型為例:[0092][0093]其中,wshap表示shap模型的權重值,abilityshap表示shap模型的解釋能力,abilitypdp表示pdp模型的解釋能力,abilitylime表示lime模型的解釋能力。[0094]作為一個示例,根據n個解釋模型一一對應的n個權重值,以及第一特徵集中各特徵對應的n個重要程度值,確定第二特徵集中各特徵的融合重要程度值可以如公式(4)所示:[0095][0096]其中,importancei為特徵i的融合重要程度值,ii,j特徵i在模型j中對應的重要程度值,模型j可以是上述任一解釋模型。[0097]如此,通過根據各樣本的解釋信息,通過判斷確定對應的每個解釋模型的解釋一致性和規則命中率,由於解釋一致性和命中率越高,則模型解釋能力越好,從而計算出權重值,可以保證各解釋模型的權重值的準確性。在一些示例中,各解釋模型輸出的第一解釋信息還可以包括初始分類模型的預測規則,上述將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息,還可以包括對n個解釋模型對應的預測規則進行融合,其中對n個解釋模型對應的預測規則進行融合可以遵循以下原則:[0098](1)解釋能力優先原則:根據各解釋模型輸出的第一解釋信息,確定各解釋模型解釋結果的可靠性,可以理解的是,解釋能力越大,則可以認為可靠性越高,解釋能力可以基於上述解釋一致性和規則命中率確定。在出現解釋衝突的情況下,即多個解釋模型對同一分類模型出現不同的解釋信息時,優先選擇模型解釋的可靠性更高的解釋模型。[0099](2)異常調節原則:在解釋能力優先原則的前提下,針對每個特徵的每個解釋模型給出的第一解釋信息,若出現明顯異常、不合理的情況,則對第一解釋信息的融合進行優化。[0100]這樣,可以基於融合後的預測規則以及各特徵的融合重要程度值對初始分類模型進行模型解釋,使得用戶可以更直觀的看到更合理且可解釋性更高的模型解釋結果,從而有效提高了模型解釋的可靠性和普適性。[0101]為了更準確地得到各解釋模型的解釋一致性,本技術實施例提供了一種將初始分類模型以及訓練樣本集中各樣本分別輸入至n個解釋模型中,得到各解釋模型輸出的各樣本的解釋信息的具體實現方式,該具體實現方式可以包括:[0102]獲取訓練樣本集中任意兩個相似樣本,以及任意兩個相似樣本中各特徵的差異值;[0103]將初始分類模型以及任意兩個相似樣本分別輸入至n個解釋模型中,得到各解釋模型輸出的任意兩個相似樣本中各特徵的重要程度值;[0104]根據各樣本的解釋信息,確定各解釋模型的解釋一致性,包括:[0105]根據任意兩個相似樣本中各特徵的重要程度值,確定各解釋模型中的各特徵的重要程度差異值;[0106]根據各特徵的差異值,以及各特徵的重要程度差異值,確定各解釋模型中的任意兩個相似樣本的解釋一致性;[0107]根據各解釋模型中的任意兩個相似樣本的解釋一致性,確定各解釋模型的解釋一致性。[0108]在上述具體實現方式中,相似樣本可以是指各特徵比較接近的樣本,可以獲取訓練樣本集中任意兩個相似樣本,以及這任意兩個相似樣本中各特徵的差異值。[0109]例如,可以獲取訓練樣本集中任意兩個相似的樣本x和x′,以及樣本x和x′中各特徵的差異值,其中,各特徵的差異值可以如公式(5)所示:[0110][0111]其中,difi(x,x′)表示特徵i的差異值,xi和x′i分別表示樣本x中的特徵i、樣本x′的特徵i。[0112]然後將初始分類模型以及任意兩個相似樣本中的其中一個樣本輸入至n個解釋模型中,得到各解釋模型輸出的其中一個樣本中各特徵的重要程度值。再將初始分類模型以及任意兩個相似樣本中的另一個樣本輸入至n個解釋模型中,得到各解釋模型輸出的另一個樣本中各特徵的重要程度值。並可以根據任意兩個相似樣本中各特徵的重要程度值,確定各解釋模型中的各特徵的重要程度差異值。[0113]例如,可以將初始分類模型以及樣本x和x′分別輸入至任意一個解釋模型中,得到該解釋模型輸出的樣本x和x′中各特徵的重要程度值,並確定各特徵的重要程度差異值。其中,對於特徵i的重要程度差異值可以如公式(6)所示:[0114][0115]其中,difi(m(x,x′))表示特徵i的重要程度差異值,m(x)和m(x′)分別表示樣本x和x′中特徵i的重要程度值。[0116]可以根據各特徵的差異值,以及各特徵的重要程度差異值,確定各解釋模型中的任意兩個相似樣本的解釋一致性,其中,任意兩個相似樣本x和x′的解釋一致性可以如公式(7)所示:[0117][0118]其中,sam(x,x′)表示任意兩個相似樣本x和x′的解釋一致性,n表示第一特徵集中所有特徵的數量。[0119]可以根據各特徵的差異值,以及各特徵的重要程度差異值,確定各解釋模型中的任意兩個相似樣本的解釋一致性,其中,對於解釋模型的的解釋一致性可以如公式(8)所示:[0120][0121]其中,sam表示解釋模型的解釋一致性,j、k分別表示訓練樣本集中的第j、k個樣本,s表示訓練樣本集的樣本總數。[0122]可以理解的是,若解釋模型的解釋一致性越高,則sam值應當越接近1,大於1或小於1的距離越遠,則說明解釋一致性越差,即說明該解釋模型的解釋能力越差。[0123]如此,通過獲取訓練樣本集中任意兩個相似樣本,任意兩個相似樣本中各特徵的差異值以及各特徵的重要程度差異值,判斷兩個相似樣本對於同一個解釋模型存在的差異性,並計算得到整個模型的解釋一致性,能夠更準確地確定各解釋模型的解釋一致性。[0124]為了更準確地獲得規則命中率,本技術實施例還提供了根據預測結果確定各解釋模型的規則命中率的另一種實現方式,具體可以包括:[0125]獲取訓練樣本集中第一樣本的第一數量,以及訓練樣本集中所有樣本的第二數量,其中,第一樣本包括預測結果指示屬於目標對象且實際屬於目標對象的樣本,及預測結果指示不屬於目標對象且實際不屬於目標對象的樣本;[0126]根據第一數量與第二數量的比值,得到各解釋模型的規則命中率。[0127]在上述具體實現方式中,第一樣本可以是預測結果正確的樣本,即預測結果指示屬於目標對象且實際屬於目標對象的樣本,及預測結果指示不屬於目標對象且實際不屬於目標對象的樣本,第一數量可以是預測結果指示屬於目標對象且實際屬於目標對象的樣本,以及預測結果指示不屬於目標對象且實際不屬於目標對象的樣本之和。[0128]作為一個示例,可以根據第一數量與第二數量的比值,得到各解釋模型的規則命中率,其中,解釋模型的規則命中率可以如公式(9)所示:[0129][0130]其中,cor表示解釋模型的規則命中率,ny,y表示預測結果指示屬於目標對象且實際屬於目標對象的樣本的數量,nn,n表示預測結果指示不屬於目標對象且實際不屬於目標對象的樣本的數量,s表示訓練樣本集中所有樣本總數。[0131]如此,通過獲取訓練樣本集中第一樣本的第一數量,以及訓練樣本集中所有樣本的第二數量,將預測結果正確的樣本數量代入公式計算規則命中率,保證了規則命中率的準確性。[0132]為了更準確地得到目標特徵集,本技術實施例提供了一種s140的具體實現方式,該具體實現方式可以包括:[0133]根據第二特徵集中各特徵的融合重要程度值,確定融合重要程度值大於或等於預設重要程度值閾值的初選特徵;[0134]在初選特徵的數量小於或等於預設數量閾值的情況下,將初選特徵提取為目標特徵集。[0135]在上述具體實現方式中,預設重要程度值閾值可以是根據實際情況設定的任意數值,此處不作具體限定。[0136]可以根據融合重要程度值,將第二特徵集中的各特徵進行排序,剔除融合重要程度值小於預設重要程度值閾值的特徵,得到剩餘的初選特徵,若初選特徵的數量小於或等於預設數量閾值,則可以將所有初選特徵全部提取為目標特徵集。其中預設數量閾值可以結合實際情況根據經驗值設定,例如預設數量閾值可以為0.3b,b為總特徵數。設初選特徵的數量為a,若a≤0.3b,則可以提取全部初選特徵作為目標特徵集。[0137]如此,通過根據融合重要程度值大於或等於預設重要程度值閾值的初選特徵,在初選特徵的數量小於或等於預設數量閾值的情況下,將初選特徵提取為目標特徵集,能夠保證初選特徵數量小於預設數量閾值時,將所有特徵都作為目標特徵,確保目標特徵集的特徵數量不會過多,進而可以減少後續採用目標特徵集優化訓練分類模型的計算量,有效節約了算力。[0138]為了更準確地得到目標特徵集,根據第二特徵集中各特徵的融合重要程度值,確定融合重要程度值大於或等於預設重要程度值閾值的初選特徵之後,上述具體實現方式還可以包括:[0139]在初選特徵的數量大於預設數量閾值的情況下,從初選特徵中提取m個目標特徵集,其中,m個目標特徵集對應的特徵數量不同,且m個目標特徵集對應的特徵數量均小於或等於預設數量閾值,m為大於1的整數。[0140]在上述具體實現方式中,在初選特徵的數量大於預設數量閾值時,則可以認為當前剩餘的特徵數量過多,此時可以從初選特徵中提取m個特徵數量不同的目標特徵集。可以理解的是,每個目標特徵集對應的特徵數量均小於或等於預設數量閾值。[0141]可以理解的是,從初選特徵中提取m個目標特徵集可以是隨機提取的,也可以是將初選特徵根據第二特徵集中各特徵的融合重要程度值從大到小進行排序,然後依次從排序靠前的特徵開始提取不同數量的特徵作為不同的目標特徵集。[0142]例如,設剩餘特徵數為a,預設數量閾值可以為0.3b,b為總特徵數。若a>0.3b,則可以分別從初始特徵中提取數量為0.1b、0.2b和0.3b的目標特徵集。[0143]如此,在初選特徵的數量大於預設數量閾值的情況下,從初選特徵中提取m個目標特徵集,通過不同的目標特徵集分別訓練優化分類模型,得到精度更高的分類模型。這樣可以在節約算力的同時,有效保證分類模型優化後的精度。[0144]基於上述實施例提供的特徵提取方法,本技術還提供了一種特徵提取裝置的實施例。[0145]圖4示出了本技術另一個實施例提供的特徵提取裝置的結構示意圖,為了便於說明,僅示出了與本技術實施例相關的部分。[0146]參照圖4,特徵提取裝置400包括:[0147]獲取模塊401,用於獲取訓練樣本集以及初始分類模型,初始分類模型由訓練樣本集訓練得到;[0148]輸出模塊402,用於將訓練樣本集和初始分類模型輸入至n個解釋模型中,得到各解釋模型輸出的第一解釋信息,各解釋模型輸出的第一解釋信息包括第一特徵集中各特徵的重要程度值,重要程度值用於指示各特徵對初始分類模型的預測結果的影響程度,n為大於1的整數;[0149]融合模塊403,用於將n個解釋模型輸出的n個第一解釋信息進行融合處理,得到融合後的第二解釋信息,第二解釋信息包括第二特徵集中各特徵的融合重要程度值,第二特徵集包括n個解釋模型對應的第一特徵集中的相同特徵;[0150]提取模塊404,用於根據第二特徵集中各特徵的融合重要程度值,提取目標特徵集,目標特徵集包括融合重要程度值滿足預設條件的目標特徵。[0151]由此,可以結合考慮多個不同解釋模型輸出的第一解釋信息,融合得到更全面、客觀性更高的第二解釋信息,並可以基於第二解釋信息中的各特徵的融合重要程度值來提取目標特徵集,降低因單個解釋模型的解釋局限性導致各特徵的重要程度值有誤,影響到目標特徵集提取準確性的風險,有效保證了目標特徵集的準確性。[0152]在一些實施例中,為了更準確的得到融合後的第二解釋信息,上述融合模塊403可以包括以下單元:[0153]第一確定單元,用於根據n個第一特徵集中的相同特徵,確定第二特徵集;[0154]第二確定單元,用於根據n個解釋模型輸出的n個第一解釋信息,確定第二特徵集中各特徵對應的n個重要程度值;[0155]第三確定單元,用於根據n個解釋模型一一對應的n個權重值,以及第二特徵集中各特徵對應的n個重要程度值,確定第二特徵集中各特徵的融合重要程度值。[0156]在一些實施例中,各解釋模型輸出的第一解釋信息還包括初始分類模型的預測規則,預測規則基於第一特徵集中各特徵的變化對初始分類模型的預測結果所產生的變化情況確定,為了更準確地確定各解釋模型的權重值,上述融合模塊403還可以包括以下單元:[0157]輸入單元,用於將初始分類模型以及訓練樣本集中各樣本分別輸入至n個解釋模型中,得到各解釋模型輸出的各樣本的解釋信息;[0158]第四確定單元,用於根據各樣本的解釋信息,確定各解釋模型的解釋一致性;[0159]預測單元,用於根據初始分類模型的預測規則對訓練樣本集進行預測,得到各解釋模型對應的預測結果;[0160]第五確定單元,用於根據預測結果確定各解釋模型的規則命中率;[0161]第六確定單元,用於根據解釋一致性和規則命中率,確定各解釋模型的權重值。[0162]在一些實施例中,為了更準確地得到各解釋模型的解釋一致性,上述輸入單元可以包括以下子單元:[0163]第一獲取子單元,用於獲取訓練樣本集中任意兩個相似樣本,以及任意兩個相似樣本中各特徵的差異值;[0164]輸出子單元,用於將初始分類模型以及任意兩個相似樣本分別輸入至n個解釋模型中,得到各解釋模型輸出的任意兩個相似樣本中各特徵的重要程度值。[0165]上述第四確認單元可以包括以下子單元:[0166]第一確定子單元,用於根據任意兩個相似樣本中各特徵的重要程度值,確定各解釋模型中的各特徵的重要程度差異值;[0167]第二確定子單元,用於根據各特徵的差異值,以及各特徵的重要程度差異值,確定各解釋模型中的任意兩個相似樣本的解釋一致性;[0168]第三確定子單元,用於根據各解釋模型中的任意兩個相似樣本的解釋一致性,確定各解釋模型的解釋一致性。[0169]在一些實施例中,為了更準確地獲得規則命中率,上述第五確認單元可以包括以下子單元:[0170]第二獲取子單元,用於獲取訓練樣本集中第一樣本的第一數量,以及訓練樣本集中所有樣本的第二數量,其中,第一樣本包括預測結果指示屬於目標對象且實際屬於目標對象的樣本,及預測結果指示不屬於目標對象且實際不屬於目標對象的樣本;[0171]計算子單元,用於根據第一數量與第二數量的比值,得到各解釋模型的規則命中率。[0172]在一些實施例中,為了更準確地得到目標特徵集,上述提取模塊204可以包括以下單元:[0173]第七確定單元,用於根據第二特徵集中各特徵的融合重要程度值,確定融合重要程度值大於或等於預設重要程度值閾值的初選特徵;[0174]第一提取單元,用於在初選特徵的數量小於或等於預設數量閾值的情況下,將初選特徵提取為目標特徵集。[0175]在一些實施例中,為了更準確地得到目標特徵集,上述提取模塊204還可以包括以下單元:[0176]第二提取單元,用於在初選特徵的數量大於預設數量閾值的情況下,從初選特徵中提取m個目標特徵集,其中,m個目標特徵集對應的特徵數量不同,且m個目標特徵集對應的特徵數量均小於或等於預設數量閾值,m為大於1的整數。[0177]在一些實施例中,為了使得到各解釋模型輸出的第一解釋信息更加準確,上述輸出模塊402還可以用於:[0178]將訓練樣本集和初始分類模型輸入至第一解釋模型中,第一解釋模型執行第一操作,輸出第一特徵集中各特徵的重要程度值,其中,第一解釋模型為n個解釋模型中的任一解釋模型,第一操作包括:[0179]基於訓練樣本集和初始分類模型,確定訓練樣本集中所有特徵的重要程度值;[0180]對所有特徵的重要程度值由大到小進行排序,得到特徵序列;[0181]將特徵序列中的前k個特徵確定為第一特徵集,並獲取第一特徵集中各特徵的重要程度值,k為大於1的整數。[0182]需要說明的是,上述裝置/單元之間的信息交互、執行過程等內容,與本技術方法實施例基於同一構思,是與上述特徵提取方法對應的裝置,上述方法實施例中所有實現方式均適用於該裝置的實施例中,其具體功能及帶來的技術效果,具體可參見方法實施例部分,此處不再贅述。[0183]所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,僅以上述各功能單元、模塊的劃分進行舉例說明,實際應用中,可以根據需要而將上述功能分配由不同的功能單元、模塊完成,即將裝置的內部結構劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實施例中的各功能單元、模塊可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。另外,各功能單元、模塊的具體名稱也只是為了便於相互區分,並不用於限制本技術的保護範圍。上述系統中單元、模塊的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。[0184]圖5示出了本技術又一個實施例提供的電子設備的硬體結構示意圖。[0185]設備可以包括處理器501以及存儲有程序或指令的存儲器302。[0186]處理器501執行程序時實現上述任意各個方法實施例中的步驟。[0187]示例性的,程序可以被分割成一個或多個模塊/單元,一個或者多個模塊/單元被存儲在存儲器502中,並由處理器501執行,以完成本技術。一個或多個模塊/單元可以是能夠完成特定功能的一系列程序指令段,該指令段用於描述程序在設備中的執行過程。[0188]具體地,上述處理器501可以包括中央處理器(cpu),或者特定集成電路(applicationspecificintegratedcircuit,asic),或者可以被配置成實施本技術實施例的一個或多個集成電路。[0189]存儲器502可以包括用於數據或指令的大容量存儲器。舉例來說而非限制,存儲器502可包括硬碟驅動器(harddiskdrive,hdd)、軟盤驅動器、快閃記憶體、光碟、磁光碟、磁帶或通用串行總線(universalserialbus,usb)驅動器或者兩個或更多個以上這些的組合。在合適的情況下,存儲器502可包括可移除或不可移除(或固定)的介質。在合適的情況下,存儲器502可在綜合網關容災設備的內部或外部。在特定實施例中,存儲器502是非易失性固態存儲器。[0190]存儲器可包括只讀存儲器(rom),隨機存取存儲器(ram),磁碟存儲介質設備,光存儲介質設備,快閃記憶體設備,電氣、光學或其他物理/有形的存儲器存儲設備。因此,通常,存儲器包括一個或多個編碼有包括計算機可執行指令的軟體的有形(非暫態)機器可讀存儲介質(例如,存儲器設備),並且當該軟體被執行(例如,由一個或多個處理器)時,其可操作來執行參考根據本公開的一方面的方法所描述的操作。[0191]處理器501通過讀取並執行存儲器502中存儲的程序或指令,以實現上述實施例中的任意一種方法。[0192]在一個示例中,電子設備還可包括通信接口503和總線504。其中,處理器501、存儲器502、通信接口503通過總線504連接並完成相互間的通信。[0193]通信接口503,主要用於實現本技術實施例中各模塊、裝置、單元和/或設備之間的通信。[0194]總線504包括硬體、軟體或兩者,將在線數據流量計費設備的部件彼此耦接在一起。舉例來說而非限制,總線可包括加速圖形埠(agp)或其他圖形總線、增強工業標準架構(eisa)總線、前端總線(fsb)、超傳輸(ht)互連、工業標準架構(isa)總線、無限帶寬互連、低引腳數(lpc)總線、存儲器總線、微信道架構(mca)總線、外圍組件互連(pci)總線、pci-express(pci-x)總線、串行高級技術附件(sata)總線、視頻電子標準協會局部(vlb)總線或其他合適的總線或者兩個或更多個以上這些的組合。在合適的情況下,總線504可包括一個或多個總線。儘管本技術實施例描述和示出了特定的總線,但本技術考慮任何合適的總線或互連。[0195]另外,結合上述實施例中的方法,本技術實施例可提供一種機器可讀存儲介質來實現。該機器可讀存儲介質上存儲有程序或指令;該程序或指令被處理器執行時實現上述實施例中的任意一種方法。該機器可讀存儲介質可以被如計算機等機器讀取。[0196]本技術實施例另提供了一種晶片,晶片包括處理器和通信接口,通信接口和所述處理器耦合,處理器用於運行程序或指令,實現上述方法實施例的各個過程,且能達到相同的技術效果,為避免重複,這裡不再贅述。[0197]應理解,本技術實施例提到的晶片還可以稱為系統級晶片、系統晶片、晶片系統或片上系統晶片等。[0198]本技術實施例提供一種電腦程式產品,該程序產品被存儲在機器可讀存儲介質中,該程序產品被至少一個處理器執行以實現如上述方法實施例的各個過程,且能達到相同的技術效果,為避免重複,這裡不再贅述。[0199]需要明確的是,本技術並不局限於上文所描述並在圖中示出的特定配置和處理。為了簡明起見,這裡省略了對已知方法的詳細描述。在上述實施例中,描述和示出了若干具體的步驟作為示例。但是,本技術的方法過程並不限於所描述和示出的具體步驟,本領域的技術人員可以在領會本技術的精神後,作出各種改變、修改和添加,或者改變步驟之間的順序。[0200]以上的結構框圖中所示的功能模塊可以實現為硬體、軟體、固件或者它們的組合。當以硬體方式實現時,其可以例如是電子電路、專用集成電路(asic)、適當的固件、插件、功能卡等等。當以軟體方式實現時,本技術的元素是被用於執行所需任務的程序或者代碼段。程序或者代碼段可以存儲在機器可讀介質中,或者通過載波中攜帶的數據信號在傳輸介質或者通信鏈路上傳送。「機器可讀介質」可以包括能夠存儲或傳輸信息的任何介質。機器可讀介質的例子包括電子電路、半導體存儲器設備、rom、快閃記憶體、可擦除rom(erom)、軟盤、cd-rom、光碟、硬碟、光纖介質、射頻(rf)鏈路,等等。代碼段可以經由諸如網際網路、內聯網等的計算機網格被下載。[0201]還需要說明的是,本技術中提及的示例性實施例,基於一系列的步驟或者裝置描述一些方法或系統。但是,本技術不局限於上述步驟的順序,也就是說,可以按照實施例中提及的順序執行步驟,也可以不同於實施例中的順序,或者若干步驟同時執行。[0202]上面參考根據本公開的實施例的方法、裝置(系統)和程序產品的流程圖和/或框圖描述了本公開的各方面。應當理解,流程圖和/或框圖中的每個方框以及流程圖和/或框圖中各方框的組合可以由電腦程式或指令實現。這些程序或指令可被提供給通用計算機、專用計算機、或其它可編程數據處理裝置的處理器,以產生一種機器,使得經由計算機或其它可編程數據處理裝置的處理器執行的這些指令使能對流程圖和/或框圖的一個或多個方框中指定的功能/動作的實現。這種處理器可以是但不限於是通用處理器、專用處理器、特殊應用處理器或者現場可編程邏輯電路。還可理解,框圖和/或流程圖中的每個方框以及框圖和/或流程圖中的方框的組合,也可以由執行指定的功能或動作的專用硬體來實現,或可由專用硬體和計算機指令的組合來實現。[0203]以上所述,僅為本技術的具體實施方式,所屬領域的技術人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的系統、模塊和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。應理解,本技術的保護範圍並不局限於此,任何熟悉本
技術領域:
:的技術人員在本技術揭露的技術範圍內,可輕易想到各種等效的修改或替換,這些修改或替換都應涵蓋在本技術的保護範圍之內。當前第1頁12當前第1頁12

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀