分類模型構建方法、分類模型構建設備和分類方法與流程
2023-05-02 19:27:31 1
本公開涉及信息處理技術領域,更具體地,涉及一種能夠優化分類性能的分類模型構建方法、分類模型構建設備和分類方法。
背景技術:
分類問題在機器學習領域已經被廣泛的研究,大多數的分類算法,例如決策樹、神經網絡,已經被成功應用於多個領域。這些標準分類算法通常假設訓練樣本的類別是均勻分布的。然而,大量的文獻顯示,非平衡數據集是實際應用中經常遇到的數據集,例如,在信用評級、癌症檢測、信用卡欺詐檢測、客戶維繫和醫療診斷圖像檢測領域等等。在非平衡數據集中,不同類別的樣本數量差距非常大,並且在實際應用中許多文獻顯示類別的非平衡分布導致標準分類算法的分類結果很差。對於標準的分類算法,通常是最大化整體的分類準確率,當處理非平衡數據時,稀少類被幾乎完全忽略,這也降低了分類性能。為了解決非平衡數據集問題,提出了過採樣技術。然而,傳統的過採樣技朮忽略了各個稀少樣本對分類準確率的貢獻。
此外,對於任何分類算法,通常需要將輸入數據結構轉換為矩陣形式或其它結構化形式。對於文本分類問題來說,文本樣本的特徵提取對於分類準確率來說是非常重要的。因此,需要設計適用於輸入數據是文本樣本的特徵提取方法。
技術實現要素:
在下文中給出了關於本公開的簡要概述,以便提供關於本公開的某些方面的基本理解。但是,應當理解,這個概述並不是關於本公開的窮舉性概述。它並不是意圖用來確定本公開的關鍵性部分或重要部分,也不是意圖用來限定本公開的範圍。其目的僅僅是以簡化的形式給出關於本公開的某些概念,以此作為稍後給出的更詳細描述的前序。
鑑於以上問題,本公開的目的是提供一種能夠實現更優的分類性能的分類模型構建方法、分類模型構建設備和分類方法,其考慮到稀少樣本的類型來執行過採樣,通過在邊界樣本附近生成新的樣本,同時在中心樣本處隨機生成新樣本,使得稀少類的邊界更加清晰,中心樣本分布更加均勻。此外,通過考慮文本的情感詞、副詞、否定詞等對句子語義的影響來計算文本樣本的特徵以將其轉化為結構化數據類型,提高了對於文本樣本的分類準確率。
根據本公開的一方面,提供了一種分類模型構建方法,其包括:特徵提取步驟,用於對預定訓練樣本集合中的訓練樣本進行特徵提取,以將預定訓練樣本集合轉換為具有期望數據結構的訓練集合;稀少樣本類型判斷步驟,用於針對訓練集合中的稀少樣本集合中的各個稀少樣本,根據該稀少樣本的鄰近樣本的分布而判斷該稀少樣本是邊界樣本還是中心樣本;過採樣步驟,用於根據稀少樣本的類型而增加稀少樣本集合的樣本數量,以使得訓練集合中的稀少樣本集合與正常樣本集合的分布均勻化,從而得到新訓練集合;以及分類模型構建步驟,用於利用新訓練集合對預定分類器進行訓練以構建分類模型。
根據本公開的優選實施例,稀少樣本類型判斷步驟進一步包括:距離計算步驟,用於針對稀少樣本集合中的各個稀少樣本,計算該稀少樣本與稀少樣本集合中的其它稀少樣本以及正常樣本集合中的各個正常樣本之間的距離;鄰近樣本確定步驟,用於針對稀少樣本集合中的各個稀少樣本,根據所計算的距離而確定該稀少樣本的預定數量的鄰近樣本;以及判斷步驟,用於針對稀少樣本集合中的各個稀少樣本,根據預定數量的鄰近樣本中包括的稀少樣本和正常樣本的數量,判斷該稀少樣本是邊界樣本還是中心樣本。
根據本公開的另一優選實施例,在過採樣步驟中,通過增強邊界樣本的數量以及隨機生成中心樣本來生成新樣本以得到新訓練集合。
根據本公開的另一優選實施例,在過採樣步驟中,針對稀少樣本集合中的各個稀少樣本,如果該稀少樣本是邊界樣本,則利用預定插值方法來生成新樣本以使得新樣本聚集在該稀少樣本附近;以及如果該稀少樣本是中心樣本,則利用預定插值方法來生成新樣本以使得新樣本相對於該稀少樣本均勻分布。
根據本公開的另一優選實施例,在判斷步驟中,針對稀少樣本集合中的各個稀少樣本,如果預定數量的鄰近樣本中的稀少樣本的數量少於正常 樣本的數量,則該稀少樣本是邊界樣本,否則該稀少樣本是中心樣本。
根據本公開的另一優選實施例,特徵提取步驟進一步包括:樣本類型判斷步驟,用於判斷預定訓練樣本集合中的訓練樣本的類型是數字還是文本;數字特徵提取步驟,用於直接將類型為數字的訓練樣本轉換為期望的數據結構;以及文本特徵提取步驟,用於針對類型為文本的訓練樣本,根據考慮到情感詞的語義規則來計算該訓練樣本中的各個語句的特徵得分,以將該訓練樣本轉換為期望的數據結構。
根據本公開的另一優選實施例,上述語義規則還考慮到情感詞與副詞、否定副詞或名詞的組合、兩個情感詞之間的關係以及語句之間的關係。
根據本公開的另一優選實施例,上述語義規則還考慮到情感詞、副詞、否定副詞和/或名詞的正面性/負面性和/或強度。
根據本公開的另一方面,還提供了一種分類模型構建設備,其包括:特徵提取單元,被配置成對預定訓練樣本集合中的訓練樣本進行特徵提取,以將預定訓練樣本集合轉換為具有期望數據結構的訓練集合;稀少樣本類型判斷單元,被配置成針對訓練集合中的稀少樣本集合中的各個稀少樣本,根據該稀少樣本的鄰近樣本的分布而判斷該稀少樣本是邊界樣本還是中心樣本;過採樣單元,被配置成根據稀少樣本的類型而增加所述稀少樣本集合的樣本數量,以使得訓練集合中的稀少樣本集合與正常樣本集合的分布均勻化,從而得到新訓練集合;以及分類模型構建單元,被配置成利用新訓練集合對預定分類器進行訓練以構建分類模型。
根據本公開的又一方面,還提供了一種分類方法,其用於利用根據上述分類模型構建方法所構建的分類模型對輸入數據進行分類。
根據本公開的又一方面,還提供了一種分類設備,其用於利用根據上述分類模型構建方法所構建的分類模型對輸入數據進行分類。
根據本公開的其它方面,還提供了用於實現上述根據本公開的分類模型構建方法和分類方法的電腦程式代碼和電腦程式產品以及其上記錄有該用於實現上述根據本公開的分類模型構建方法和分類方法的電腦程式代碼的計算機可讀存儲介質。
在下面的說明書部分中給出本公開實施例的其它方面,其中,詳細說明用於充分地公開本公開實施例的優選實施例,而不對其施加限定。
附圖說明
本公開可以通過參考下文中結合附圖所給出的詳細描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中並形成說明書的一部分,用來進一步舉例說明本公開的優選實施例和解釋本公開的原理和優點。其中:
圖1是示出根據本公開的實施例的分類模型構建方法的過程示例的流程圖;
圖2是示出根據本公開的實施例的分類模型構建方法中的特徵提取步驟中的具體處理示例的流程圖;
圖3是示出根據本公開的實施例的分詞、詞性標註和句子依存關係標註的示例的示意圖;
圖4A至圖4C是示出根據本公開的實施例的情感計算二叉樹的示意圖;
圖5是示出根據本公開的實施例的分類模型構建方法中的稀少樣本類型判斷步驟中的具體處理示例的流程圖;
圖6A和圖6B是示出根據本公開的實施例的根據稀少樣本類型所生成的新樣本的分布的示意圖;
圖7是示出根據本公開的實施例的分類模型構建設備的功能配置示例的框圖;
圖8是示出根據本公開的實施例的分類模型構建設備中的稀少樣本類型判斷單元的具體配置示例的框圖;
圖9是示出根據本公開的實施例的分類模型構建設備中的特徵提取單元的具體配置示例的框圖;
圖10是示出根據本公開的實施例的分類方法的過程示例的流程圖;
圖11是示出根據本公開的實施例的分類設備的功能配置示例的框圖;以及
圖12是示出作為本公開的實施例中可採用的信息處理設備的個人計算機的示例結構的框圖。
具體實施方式
在下文中將結合附圖對本公開的示範性實施例進行描述。為了清楚和簡明起見,在說明書中並未描述實際實施方式的所有特徵。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定於實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,並且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常複雜和費時的,但對得益於本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。
在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本公開,在附圖中僅僅示出了與根據本公開的方案密切相關的設備結構和/或處理步驟,而省略了與本公開關係不大的其它細節。
以下將參照圖1至圖12具體描述本公開的實施例。
首先,將參照圖1描述根據本公開的實施例的分類模型構建方法的過程的示例。圖1是示出根據本公開的實施例的分類模型構建方法的過程示例的流程圖。
如圖1所示,根據本實施例的分類模型構建方法100可包括特徵提取步驟S102、稀少樣本類型判斷步驟S104、過採樣步驟S106和分類模型構建步驟S108。下面將分別詳細描述各個步驟中的處理。
在特徵提取步驟S102中,可對預定訓練樣本集合中的訓練樣本進行特徵提取,以將預定訓練樣本集合轉換為具有期望數據結構的訓練集合。
接下來,將參照圖2描述特徵提取步驟S102中的具體處理過程的示例。圖2是示出根據本公開的實施例的分類模型構建方法中的特徵提取步驟中的具體處理示例的流程圖。
如圖2所示,特徵提取步驟S102可進一步包括樣本類型判斷步驟S1021、數字特徵提取步驟S1022和文本特徵提取步驟S1023。接下來將具體描述各個步驟中的處理的示例。
在樣本類型判斷步驟S1021中,可判斷預定訓練樣本集合中的訓練樣本是數字還是文本。具體的判斷方法是本領域公知的技術,在此不再贅述。
接下來,在數字特徵提取步驟S1022中,可直接將類型為數字的訓練樣本轉換為期望的數據結構。例如,可直接將數字樣本轉換為矩陣形式。
然後,在文本特徵提取步驟S1023中,針對類型為文本的訓練樣本, 可根據考慮到情感詞的語義規則來計算該訓練樣本中的各個語句的特徵得分,以將該訓練樣本轉換為期望的數據結構。
具體地,該語義規則還可考慮到情感詞與副詞、否定副詞或名詞的組合、兩個情感詞之間的關係以及語句之間的關係,並且優選地,還考慮到情感詞、副詞、否定副詞和/或名詞的正面性/負面性和/或強度。這些語義規則可由例如Drools進行管理。
以下作為示例給出了六條預先定義的語義規則,但是應理解,這僅是示例而非限制,並且本領域技術人員可以根據實際需要而設計其它適當的語義規則。
規則1:副詞和情感詞或項
得分=極性(情感詞或項)*強度(情感詞或項)*強度(副詞)
規則2:否定副詞和情感詞或項
得分=-0.5*極性(情感詞或項)*強度(情感詞或項),或者
得分=0.5*極性(情感詞或項)*強度(情感詞或項)
規則3:名詞和情感詞或項
得分=極性(名詞)*強度(情感詞或項),或者
得分=0.5*極性(名詞)*強度(情感詞或項)
規則4:雙情感詞或項(從屬關係)
得分=極性(情感詞或項1)*強度(情感詞或項1)+極性(情感詞或項2)*強度(情感詞或項2)
規則5:雙情感詞或項(遞進關係)
得分=極性(情感詞或項1)*sqrt(強度(情感詞或項1)*強度(情感詞或項2))
規則6:雙語句
得分=a*得分(語句1)+b*得分(語句2)
參數=(a=1,b=1)從屬關係
參數=(a=1,b=2)遞進關係
參數=(a=0,b=-1)轉折關係
應指出,上述規則中的「極性」表示詞的正面性/負面性,並且從屬關係、遞進關係和轉折關係分別表示兩個情感詞或兩個語句之間的關係。應理解,情感詞或語句之間的關係並不限於這些關係,並且還可包括例如並列關係等。
接下來,將參照具體的語句示例描述根據本公開的實施例的利用上述語義規則的特徵提取方法。例如,以句子「今年三一重工的業績表現不佳,同比去年虧損幅度很大」為例進行描述。
具體地,首先,對句子進行分詞,並進行詞性和句子依存關係的標註。經過分詞和詞性標註得到:「今年/nt三一重工/n的/u業績/n表現/v不/d佳/a,同比/p去年/nt虧損/v幅度/n很/d大/a./wp」。
然後,可利用例如哈爾濱工業大學的LTP平臺,對進行了分詞和詞性標註後的句子進行依存關係分析,從而可得到例如圖3所示的分析結果。圖3是示出根據本公開的實施例的分詞、詞性標註和句子依存關係標註的示例的示意圖。
如圖3所示,詞中間的空格表示分詞,最下面一行為詞性標註。如果詞與詞之間直接發生依存關係,則其中一個詞稱為核心詞,另一個詞稱為修飾詞。在圖3所示的依存句法分析圖中,依存關係用一個弧表示,依存弧的方向總是由核心詞指向修飾詞,每個依存弧上標註了依存關係名,表示依存關係中的兩個詞之間存在什麼依存關係。依存關係的標註根據例如LTP依存關係標記集給出。
然後,根據上述依存關係標註,將依存關系統一記為以下形式:依存關係名(核心詞核心詞的詞性,修飾詞修飾詞的詞性),例如ADV(佳a,不d)。
接下來,對LTP的24種依存關係進行分類:
一、子句內依存關係
(1)不影響句子情感傾向性的依存關係
①QUN關係(數量關係);
②LAD關係(前附加關係);
③RAD關係(後附加關係);
④APP關係(同位關係);
⑤POB關係(介賓關係);
⑥BA字結構(「把」字結構);
⑦BEI字結構(「被」字結構);
⑧SIM關係(比擬關係);
⑨MT結構(動態結構);
(2)影響句子情感傾向性的依存關係
①ADV(狀中結構);
②CMP(動補結構);
③VOB(動賓關係);
④SBV(主謂關係);
⑤ATT(定中關係);
(3)可轉化的依存關係
①DE字結構(「的」字結構);
②DI字結構(「地」字結構);
③DEI字結構(「得」字結構);
二、子句間的依存關係
(1)不影響句子情感傾向性的依存關係
①HED關係(指向句子核心詞彙)
②IS結構(獨立結構)
③IC分句(獨立分句)
④DC分句(依存分句)
(2)影響句子情感傾向性的依存關係
①CNJ結構(關聯結構)
三、子句內及子句間均可能存在的依存關係
(1)當出現在子句內時
①VV結構(連動結構):VV結構的動詞為情感詞,將影響句子的情感傾向性。
②COO關係為:「形容詞+形容詞」,且形容詞為情感詞時,將影響句子的情感傾向性。
(2)當出現在子句間時
其對句子情感傾向性的影響可通過CNJ結構中「VV或者COO」的並列關係來體現,不再考慮VV結構和COO關係的影響。
基於以上分類,上述例句的影響句子情感傾向性的依存關係序列為:S={SBV(表現v,業績n),CMP(表現v,佳a),ADV(佳a,不d),ATT(幅度n,虧損v),SBV(大a,幅度n),ADV(大a,很d)}。
接下來,構建情感傾向計算二叉樹:
(1)情感詞依存關係分類:自左至右找到S中出現的第一個情感詞e1,並找到與情感詞e1關聯的依存關係序列ES1。若S-ES1不為空,則在剩下的依存關係中繼續自左至右搜索第二個情感詞e2及其關聯的依存關係序列ES2;若S-ES1-ES2不等於空,以此類推,直到找到最後一個情感詞en及其關聯的依存關係序列ESn。
對於上述例句,第一個情感詞e1為「佳」,其關聯的依存序列ES1為{CMP(表現v,佳a),SBV(表現v,業績n),ADV(佳a,不d)};由於S-ES1不為空,繼續搜索序列中下一個情感詞,e2為「虧損」,其關聯的情感詞序列ES2為{ATT(幅度n,虧損v),SBV(大a,幅度n),ADV(大a,很d)},由於S-ES1-ES2為空,結束處理。
(2)重新排序ESi:給出的排序規則為例如:ATT ADV VV COOCMP VOB SBV CNJ,當ATT,ADV,VV,COO,CMP出現多次時,則按照原序列的順序。
對於上述例句,ES1排序後得到依存關係序列RS1為:
{ADV(佳a,不d),CMP(表現v,佳a),SBV(大a,幅度n)};
ES2排序後得到依存關係序列RS2為:
{ATT(幅度n,虧損v),ADV(大a,很d),SBV(大a,幅度n)}。
(3)構建情感計算二叉樹:選RSi中的第一個依存關係,以依存關係名構建一個節點n1,其修飾詞和核心詞分別作為節點n1 的左、右葉子節點構建情感計算二叉樹。接著依次選擇下一個依存關係,並以其依存關係名構建一個結點n2,若依存關係的核心詞(修飾詞)出現在已經構建的二叉樹子樹中,則將包含該核心詞(修飾詞)的情感計算二叉樹作為結點n2的右(左)子樹,未出現的修飾詞(核心詞)作為結點n2的左(右)子樹,構建更大的情感計算二叉樹;若該依存關係的核心詞和修飾詞均分別出現在已有的情感計算二叉樹子樹中,則將修飾詞、核心詞所在的情感計算二叉樹分別作為節點n2的左子樹、右子樹,構建更大的二叉樹,以此類推,直到與該情感詞相關聯的RSi中所有的依存關係處理完畢。
對於上述例句,RS1的情感計算二叉樹為例如圖4A所示的示意圖,RS2的情感計算二叉樹為例如圖4B所示的示意圖。
(4)連接兩個子句情感計算二叉樹,當先後兩個情感關聯的依存關係序列出現CNJ結構時,選擇PP(並列關係)、MM(遞進關係)或BB(轉折關係)作為結點名構建一個結點n3,並將對應的2個情感計算二叉樹分別作為結點n3的左、右子樹,構建更大的二叉樹;若依存序列中未出現CNJ結構時,用PP作為結點n3。
上述例句的最終情感計算二叉樹為例如圖4C所示的示意圖。
然後,根據所構建的情感計算二叉樹,基於上述預先設計的語義規則計算語句的情感值得分。
(1)判斷給定的樹T是否為空,若不為空,判斷T的左結點是否為{ATT,ADV,VV,COO,CMP,VOB,SBV,PP,MM,BB}中的一個,若是,則後序遍歷左子樹的方式遞歸調用;判斷T的右結點是否為{ATT,ADV,VV,COO,CMP,VOB,SBV,PP,MM,BB}中的一個,若是,則後序遍歷左子樹的方式遞歸調用;
(2)如果T的左結點的數據為程度副詞,右結點的data數據程度副詞,則按照上述規則1計算2棵子樹之間的情感值得分;
(3)如果T的左結點的數據為否定副詞,右結點的數據為否定副詞, 則按照上述規則2計算2棵子樹之間的情感值得分;
(4)如果T的左結點的數據為名詞,右結點的數據為名詞,則按照上述規則3計算2棵子樹之間的情感值得分;
(5)如果T的左結點的數據為動詞,右結點的數據為動詞,如果T數據=VV,則按照上述規則4計算2棵子樹之間的情感值得分,否則按照上述規則5計算2棵子樹之間的情感值得分;
(6)如果T的左結點的數據為形容詞,右結點的數據為形容詞,如果T數據=COO,按照上述規則4計算2棵子樹之間的情感值得分;如果形容詞在程度副詞詞典中,則按照上述規則1計算2棵子樹之間的情感值得分;否則按照規則5計算2棵子樹之間的情感值得分;以及
(7)對於除上述(2)~(6)之外的情況,可按照上述規則6計算2棵子樹之間的情感值得分。
根據以上給出的計算規則,對於上述例句,可以得到例句的情感得分為:
得分(T)=得分(ADV(佳a,不d))(規則2)+得分(ATT(虧損v,幅度n),ADV(很d,大a))(規則1)
=-0.5*極性(佳)*強度(佳)+極性(虧損)*強度(虧損)*強度(很大)
=-0.5*1*1-2=-2.5
其中,在字典中規定:極性(佳)=1;強度(佳)=1;極性(虧損)=-1;強度(虧損)=1;強度(很大)=2。
根據以上方法,可以將文本轉化為數值形式。這裡假設文本i中包含j個獨立句子,則文本i被轉化為:
其中Xij表示i文本的第j句的情感值得分,該值可根據上述方法給出。
應理解,以上給出的情感值得分計算規則僅為示例,並且本領域技術人員可以根據實際需要而自行設定不同於上述的計算規則。此外,還應理解,儘管以上以中文語句為例描述了分詞、詞性標註和依存關係標註,並以此構建情感二叉樹從而計算語句的情感值得分的過程,但是應理解,對於除中文之外的其它語言的文本,也可以根據上述本公開的原理,採用不同於LTP平臺的工具進行上述操作並計算相應文本語句的特徵得分,並且這樣的變型同樣應認為落入本公開的範圍內。
此外,還應指出,儘管以上描述了通過構建情感二叉樹並且根據考慮到情感詞的預定語義規則來計算各個語句的情感詞得分來提取作為文本的樣本的特徵以將其轉換為期望的數據結構的方法,但是應理解,這僅是優選示例,並且本領域技術人員也可以採用不同於本公開的現有技術中的文本特徵提取方法來將文本樣本轉換為期望的數據結構。
這樣,通過上述特徵提取步驟中的處理,可以將包括數字和文本的訓練樣本轉換為期望的數據結構,例如矩陣形式。
接下來,返回參照圖1,在稀少樣本類型判斷步驟S104中,可針對上述得到的具有期望數據結構的訓練集合中的稀少樣本集合中的各個稀少樣本,根據該稀少樣本的鄰近樣本的分布而判斷該稀少樣本是邊界樣本還是中心樣本。
具體地,將參照圖5描述稀少樣本類型判斷步驟S104中的具體處理過程的示例。圖5是示出根據本公開的實施例的分類模型構建方法中的稀少樣本類型判斷步驟中的具體處理示例的流程圖。
如圖5所示,根據本實施例的稀少樣本類型判斷步驟S104可進一步包括距離計算步驟S1041、鄰近樣本確定步驟S1042和判斷步驟S1043。下面將具體描述各個步驟中的處理。
在距離計算步驟S1041中,可針對稀少樣本集合中的各個稀少樣本,計算該稀少樣本與稀少樣本集合中的其它稀少樣本以及正常樣本集合中的各個正常樣本之間的距離。
具體地,例如,可利用歐式距離公式來計算樣本之間的距離。假設待計算的特定稀少樣本為samplei=[x1,x2,……,xm],稀少樣本集合中的樣本表示為並且正常樣本集合中的樣本表示為則該特定稀少樣本與其它稀少樣本之間的距離以及與正常樣本之間的距離分別可以表示為:
然後,在鄰近樣本確定步驟S1042中,針對稀少樣本集合中的各個稀少樣本,可根據所計算的距離而確定該鄰近樣本的預定數量的鄰近樣本。
具體地,可對以上計算的距離rdi,k和ndi,k進行排序,並從中選擇預定數量(例如,K個)最小距離,從而將與這K個最小距離對應的樣本確定為特定稀少樣本的鄰近樣本。
然後,在判斷步驟S1043中,針對稀少樣本集合中的各個稀少樣本,可根據預定數量的鄰近樣本中包括的稀少樣本和正常樣本的數量,判斷該稀少樣本是邊界樣本還是中心樣本。
具體地,針對特定稀少樣本,如果其預定數量的鄰近樣本中的稀少樣本的數量少於正常樣本的數量,則可判斷該稀少樣本是邊界樣本,否則可判斷該稀少樣本是中心樣本。
返回參照圖1,在過採樣步驟S106中,可根據稀少樣本的類型而增加稀少樣本集合的樣本數量,以使得訓練集合中的稀少樣本集合與正常樣本集合的分布均勻化,從而得到新訓練集合。
具體地,在過採樣步驟S106中,可通過增強邊界樣本的數量以及隨機生成中心樣本來生成新樣本以得到新訓練集合。例如,如果該稀少樣本是邊界樣本,則可利用預定插值方法來生成新樣本以使得新樣本聚集在該稀少樣本附近;以及如果該稀少樣本是中心樣本,則可利用預定插值方法 來生成新樣本以使得新樣本相對於該稀少樣本均勻分布。
該預定插值方法例如可以是線性插值方法,並且新樣本可按照例如以下方式來生成:
samplenew=samplei+λ×rdi,s
s=random(1,K)
其中,λ根據均勻分布給出,並且可根據特定稀少樣本samplei是邊界樣本還是中心樣本來確定其範圍。例如,如果特定稀少樣本samplei是邊界樣本,則λ∈(0,0.5),否則λ∈(0,1)。應理解,這裡所給出的λ的範圍僅為示例,並且可根據實際需要進行調整。
此外,還應指出,這裡作為優選示例給出了線性插值方法來生成新樣本,但是應理解,也可採用其它方法來生成新樣本,只要能夠實現加強邊界並且實現中心分布均勻化的效果即可。
圖6A和圖6B分別示出了在特定稀少樣本是邊界樣本和中心樣本的情況下所生成的新樣本的分布的示例。如圖6A所示,在特定稀少樣本是邊界樣本的情況下,新生成的樣本集中在該特定稀少樣本附近以增強邊界,而在特定稀少樣本是中心樣本的情況下,如圖6B所示,新生成的樣本相對於該特定稀少樣本均勻地分布。
這樣,通過如上所述進行過採樣以增加稀少樣本集合的樣本數量,可以對樣本的非平衡數據集合進行處理,從而得到具有平衡數據集合的新訓練集合。
接下來,在分類模型構建步驟S108中,可利用以上得到的新訓練集合對預定分類器進行訓練以構建分類模型。
可以看出,根據本公開的實施例,由於根據稀少樣本的類型來進行過採樣以增加稀少樣本集合的數量,因此可以提高分類模型的分類性能。此外,根據以上構建的分類模型,由於設計了適合於文本樣本的特徵提取方法,因此能夠提高對於文本樣本的分類準確率。
應理解,儘管以上參照附圖描述了根據本公開的實施例的分類模型構建方法,但是這僅是示例而非限制,並且本領域技術人員可以根據本公開的原理對上述流程進行修改,例如,對上述步驟進行添加、刪除、變更、組合和子組合等,並且這樣的變型自然認為落入本公開的範圍內。
與上述分類模型構建方法相對應,本公開還提供了一種分類模型構建 設備。接下來,將參照圖7至圖9描述根據本公開的實施例的分類模型構建設備的配置示例。
圖7是示出根據本公開的實施例的分類模型構建設備的功能配置示例的框圖。
如圖7所示,根據該實施例的分類模型構建設備700可包括特徵提取單元702、稀少樣本類型判斷單元704、過採樣單元706和分類模型構建單元708。
特徵提取單元702可被配置成對預定訓練樣本集合中的訓練樣本進行特徵提取,以將預定訓練樣本集合轉換為具有期望數據結構的訓練集合。
接下來將參照圖8描述特徵提取單元702的具體配置示例。圖8是示出特徵提取單元702的具體配置示例的框圖。
如圖8所示,特徵提取單元702可包括樣本類型判斷模塊7021、數字特徵提取模塊7022和文本特徵提取模塊7023。下面將具體描述各個模塊的功能配置示例。
樣本類型判斷模塊7021可被配置成判斷預定訓練樣本集合中的訓練樣本的類型是數字還是文本。
數字特徵提取模塊7022可被配置成直接將類型為數字的訓練樣本轉換為期望的數據結構。
文本特徵提取模塊7023可被配置成針對類型為文本的訓練樣本,根據考慮到情感詞的語義規則來計算該訓練樣本中的各個語句的特徵得分,以將該訓練樣本轉換為期望的數據結構。優選地,該語義規則還考慮到情感詞與副詞、否定副詞或名詞的組合、兩個情感詞之間的關係以及語句之間的關係,並且還考慮了情感詞、副詞、否定副詞和/或名詞的正面性/負面性和/或強度。
具體的文本特徵提取過程可參見以上方法實施例中相應位置的描述,在此不再贅述。
接下來,返回參照圖7,稀少樣本類型判斷單元704可被配置成針對訓練集合中的稀少樣本集合中的各個稀少樣本,根據該稀少樣本的鄰近樣本的分布而判斷該稀少樣本是邊界樣本還是中心樣本。
下面將參照圖9描述稀少樣本類型判斷單元704的具體配置示例。圖 9是示出根據本公開的實施例的稀少樣本類型判斷單元的具體配置示例的框圖。
如圖9所示,根據該實施例的稀少樣本類型判斷單元704可包括距離計算模塊7041、鄰近樣本確定模塊7042和判斷模塊7043。下面將具體描述各個模塊的功能配置示例。
距離計算模塊7041可被配置成針對稀少樣本集合中的各個稀少樣本,計算該稀少樣本與稀少樣本集合中的其它稀少樣本以及正常樣本集合中的各個正常樣本之間的距離。
鄰近樣本確定模塊7042可被配置成針對稀少樣本集合中的各個稀少樣本,根據所計算的距離而確定該稀少樣本的預定數量的鄰近樣本。
判斷模塊7043可被配置成針對稀少樣本集合中的各個稀少樣本,根據預定數量的鄰近樣本中包括的稀少樣本和正常樣本的數量,判斷該稀少樣本是邊界樣本還是中心樣本。具體地,例如,如果預定數量的鄰近樣本中的稀少樣本的數量少於正常樣本的數量,則該稀少樣本是邊界樣本,否則該稀少樣本是中心樣本。
接下來,返回參照圖7,過採樣單元706可被配置成根據稀少樣本的類型而增加稀少樣本集合的樣本數量,以使得訓練集合中的稀少樣本集合與正常樣本集合的分布均勻化,從而得到新訓練集合。
具體地,過採樣單元706可通過增強邊界樣本的數量以及隨機生成中心樣本來生成新樣本以得到新訓練集合。例如,作為優選示例,如果特定稀少樣本是邊界樣本,則利用預定插值方法來生成新樣本以使得新樣本聚集在該稀少樣本附近;以及如果該特定稀少樣本是中心樣本,則利用預定插值方法來生成新樣本以使得新樣本相對於該稀少樣本均勻分布。該預定插值方法例如可以是線性插值方法。
具體的新樣本生成方法可參見以上方法實施例中相應位置的描述,在此不再重複。
返回參照圖7,分類模型構建單元708可被配置成利用以上得到的新訓練集合對預定分類器進行訓練以構建分類模型。
應指出,儘管以上描述了根據本公開的實施例的分類模型構建設備的功能配置,但是這僅是示例而非限制,並且本領域技術人員可根據本公開的原理對以上實施例進行修改,例如可對各個實施例中的功能模塊進行添加、刪除或者組合等,並且這樣的修改均落入本公開的範圍內。
此外,還應指出,這裡的裝置實施例是與上述方法實施例相對應的,因此在裝置實施例中未詳細描述的內容可參見方法實施例中相應位置的描述,在此不再重複描述。
接下來,將參照圖10描述利用以上訓練得到的分類模型對輸入數據進行分類的方法。圖10是示出根據本公開的實施例的分類方法的過程示例的流程圖。
如圖10所示,根據本實施例的分類方法可包括特徵提取步驟S1002和分類步驟S1004。
在特徵提取步驟S1002中,可提取輸入的數據樣本的特徵。具體的特徵提取方法可以是以上描述的特徵提取方法或者也可以是現有技術中的特徵提取方法,本公開對此不作限制。
接下來,在分類步驟S1004中,可根據所提取的數據樣本的特徵,利用以上訓練得到的分類模型對該數據樣本進行分類。
可以理解,通過利用根據本公開的技術的特徵提取方法和所構建的分類模型,可以克服由於不平衡數據集導致的分類準確率降低的問題,以及提高對於文本樣本的分類準確率,從而優化了分類性能。
與上述分類方法相對應的,本公開還提供了一種分類設備。圖11是示出根據本公開的實施例的分類設備的功能配置示例的框圖。
如圖11所示,根據本實施例的分類設備1100可包括特徵提取單元1102和分類單元1104。
特徵提取單元1102可被配置成提取輸入的數據樣本的特徵。
分類單元1104可被配置成根據所提取的特徵,利用以上訓練得到的分類模型對數據樣本進行分類。
應理解,根據本公開的實施例的存儲介質和程序產品中的機器可執行的指令還可以被配置成執行上述分類模型構建方法和分類方法,因此在此未詳細描述的內容可參考先前相應位置的描述,在此不再重複進行描述。
相應地,用於承載上述包括機器可執行的指令的程序產品的存儲介質也包括在本發明的公開中。該存儲介質包括但不限於軟盤、光碟、磁光碟、存儲卡、存儲棒等等。
另外,還應該指出的是,上述系列處理和裝置也可以通過軟體和/或固件實現。在通過軟體和/或固件實現的情況下,從存儲介質或網絡向具 有專用硬體結構的計算機,例如圖12所示的通用個人計算機1200安裝構成該軟體的程序,該計算機在安裝有各種程序時,能夠執行各種功能等等。
在圖12中,中央處理單元(CPU)1201根據只讀存儲器(ROM)1202中存儲的程序或從存儲部分1208加載到隨機存取存儲器(RAM)1203的程序執行各種處理。在RAM 1203中,也根據需要存儲當CPU 1201執行各種處理等時所需的數據。
CPU 1201、ROM 1202和RAM 1203經由總線1204彼此連接。輸入/輸出接口1205也連接到總線1204。
下述部件連接到輸入/輸出接口1205:輸入部分1206,包括鍵盤、滑鼠等;輸出部分1207,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等;存儲部分1208,包括硬碟等;和通信部分1209,包括網絡接口卡比如LAN卡、數據機等。通信部分1209經由網絡比如網際網路執行通信處理。
根據需要,驅動器1210也連接到輸入/輸出接口1205。可拆卸介質1211比如磁碟、光碟、磁光碟、半導體存儲器等等根據需要被安裝在驅動器1210上,使得從中讀出的電腦程式根據需要被安裝到存儲部分1208中。
在通過軟體實現上述系列處理的情況下,從網絡比如網際網路或存儲介質比如可拆卸介質1211安裝構成軟體的程序。
本領域的技術人員應當理解,這種存儲介質不局限於圖12所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質1211。可拆卸介質1211的例子包含磁碟(包含軟盤(註冊商標))、光碟(包含光碟只讀存儲器(CD-ROM)和數字通用盤(DVD))、磁光碟(包含迷你盤(MD)(註冊商標))和半導體存儲器。或者,存儲介質可以是ROM 1202、存儲部分1208中包含的硬碟等等,其中存有程序,並且與包含它們的設備一起被分發給用戶。
以上參照附圖描述了本公開的優選實施例,但是本公開當然不限於以上示例。本領域技術人員可在所附權利要求的範圍內得到各種變更和修改,並且應理解這些變更和修改自然將落入本公開的技術範圍內。
例如,在以上實施例中包括在一個單元中的多個功能可以由分開的裝置來實現。替選地,在以上實施例中由多個單元實現的多個功能可分別由分開的裝置來實現。另外,以上功能之一可由多個單元來實現。無需說, 這樣的配置包括在本公開的技術範圍內。
在該說明書中,流程圖中所描述的步驟不僅包括以所述順序按時間序列執行的處理,而且包括並行地或單獨地而不是必須按時間序列執行的處理。此外,甚至在按時間序列處理的步驟中,無需說,也可以適當地改變該順序。
另外,根據本公開的技術還可以如下進行配置。
1.一種分類模型構建方法,包括:
特徵提取步驟,用於對預定訓練樣本集合中的訓練樣本進行特徵提取,以將所述預定訓練樣本集合轉換為具有期望數據結構的訓練集合;
稀少樣本類型判斷步驟,用於針對所述訓練集合中的稀少樣本集合中的各個稀少樣本,根據該稀少樣本的鄰近樣本的分布而判斷該稀少樣本是邊界樣本還是中心樣本;
過採樣步驟,用於根據所述稀少樣本的類型而增加所述稀少樣本集合的樣本數量,以使得所述訓練集合中的稀少樣本集合與正常樣本集合的分布均勻化,從而得到新訓練集合;以及
分類模型構建步驟,用於利用所述新訓練集合對預定分類器進行訓練以構建分類模型。
2.根據1所述的分類模型構建方法,其中,所述稀少樣本類型判斷步驟進一步包括:
距離計算步驟,用於針對所述稀少樣本集合中的各個稀少樣本,計算該稀少樣本與所述稀少樣本集合中的其它稀少樣本以及所述正常樣本集合中的各個正常樣本之間的距離;
鄰近樣本確定步驟,用於針對所述稀少樣本集合中的各個稀少樣本,根據所計算的距離而確定該稀少樣本的預定數量的鄰近樣本;以及
判斷步驟,用於針對所述稀少樣本集合中的各個稀少樣本,根據所述預定數量的鄰近樣本中包括的稀少樣本和正常樣本的數量,判斷該稀少樣本是邊界樣本還是中心樣本。
3.根據1或2所述的分類模型構建方法,其中,在所述過採樣步驟中,通過增強所述邊界樣本的數量以及隨機生成所述中心樣本來生成新樣本,以得到所述新訓練集合。
4.根據3所述的分類模型構建方法,其中,所述過採樣步驟中,針對所述稀少樣本集合中的各個稀少樣本,如果該稀少樣本是所述邊界樣本,則利用預定插值方法來生成新樣本以使得所述新樣本聚集在該稀少樣本附近;以及如果該稀少樣本是所述中心樣本,則利用預定插值方法來生成新樣本以使得所述新樣本相對於該稀少樣本均勻分布。
5.根據2所述的分類模型構建方法,其中,在所述判斷步驟中,針對所述稀少樣本集合中的各個稀少樣本,如果所述預定數量的鄰近樣本中的稀少樣本的數量少於正常樣本的數量,則該稀少樣本是所述邊界樣本,否則該稀少樣本是所述中心樣本。
6.根據1所述的分類模型構建方法,其中,所述特徵提取步驟進一步包括:
樣本類型判斷步驟,用於判斷所述預定訓練樣本集合中的訓練樣本的類型是數字還是文本;
數字特徵提取步驟,用於直接將類型為數字的訓練樣本轉換為期望的數據結構;以及
文本特徵提取步驟,用於針對類型為文本的訓練樣本,根據考慮到情感詞的語義規則來計算該訓練樣本中的各個語句的特徵得分,以將該訓練樣本轉換為期望的數據結構。
7.根據6所述的分類模型構建方法,其中,所述語義規則還考慮到情感詞與副詞、否定副詞或名詞的組合、兩個情感詞之間的關係以及語句之間的關係。
8.根據7所述的分類模型構建方法,其中,所述語義規則還考慮到情感詞、副詞、否定副詞和/或名詞的正面性/負面性和/或強度。
9.一種分類模型構建設備,包括:
特徵提取單元,被配置成對預定訓練樣本集合中的訓練樣本進行特徵提取,以將所述預定訓練樣本集合轉換為具有期望數據結構的訓練集合;
稀少樣本類型判斷單元,被配置成針對所述訓練集合中的稀少樣本集合中的各個稀少樣本,根據該稀少樣本的鄰近樣本的分布而判斷該稀少樣本是邊界樣本還是中心樣本;
過採樣單元,被配置成根據所述稀少樣本的類型而增加所述稀少樣本集合的樣本數量,以使得所述訓練集合中的稀少樣本集合與正常樣本集合 的分布均勻化,從而得到新訓練集合;以及
分類模型構建單元,被配置成利用所述新訓練集合對預定分類器進行訓練以構建分類模型。
10.根據9所述的分類模型構建設備,其中,所述稀少樣本類型判斷單元進一步包括:
距離計算模塊,被配置成針對所述稀少樣本集合中的各個稀少樣本,計算該稀少樣本與所述稀少樣本集合中的其它稀少樣本以及所述正常樣本集合中的各個正常樣本之間的距離;
鄰近樣本確定模塊,被配置成針對所述稀少樣本集合中的各個稀少樣本,根據所計算的距離而確定該稀少樣本的預定數量的鄰近樣本;以及
判斷模塊,被配置成針對所述稀少樣本集合中的各個稀少樣本,根據所述預定數量的鄰近樣本中包括的稀少樣本和正常樣本的數量,判斷該稀少樣本是邊界樣本還是中心樣本。
11.根據9或10所述的分類模型構建設備,其中,所述過採樣單元進一步被配置成通過增強所述邊界樣本的數量以及隨機生成所述中心樣本來生成新樣本,以得到所述新訓練集合。
12.根據11所述的分類模型構建設備,其中,所述過採樣單元進一步被配置成針對所述稀少樣本集合中的各個稀少樣本,如果該稀少樣本是所述邊界樣本,則利用預定插值方法來生成新樣本以使得所述新樣本聚集在該稀少樣本附近;以及如果該稀少樣本是所述中心樣本,則利用預定插值方法來生成新樣本以使得所述新樣本相對於該稀少樣本均勻分布。
13.根據10所述的分類模型構建設備,其中,所述判斷模塊進一步被配置成針對所述稀少樣本集合中的各個稀少樣本,如果所述預定數量的鄰近樣本中的稀少樣本的數量少於正常樣本的數量,則該稀少樣本是所述邊界樣本,否則該稀少樣本是所述中心樣本。
14.根據9所述的分類模型構建設備,其中,所述特徵提取單元進一步包括:
樣本類型判斷模塊,被配置成判斷所述預定訓練樣本集合中的訓練樣本的類型是數字還是文本;
數字特徵提取模塊,被配置成直接將類型為數字的訓練樣本轉換為期望的數據結構;以及
文本特徵提取模塊,被配置成針對類型為文本的訓練樣本,根據考慮到情感詞的語義規則來計算該訓練樣本中的各個語句的特徵得分,以將該訓練樣本轉換為期望的數據結構。
15.根據14所述的分類模型構建設備,其中,所述語義規則還考慮到情感詞與副詞、否定副詞或名詞的組合、兩個情感詞之間的關係以及語句之間的關係。
16.根據15所述的分類模型構建設備,其中,所述語義規則還考慮到情感詞、副詞、否定副詞和/或名詞的正面性/負面性和/或強度。
17.一種分類方法,用於利用根據1至8中任一項所述的分類模型構建方法所構建的分類模型對輸入數據進行分類。