一種變體文本分類識別方法、系統、存儲介質和電子設備與流程

2024-04-12 19:27:05 4

1.本發明涉及文本分類技術領域，尤其涉及一種變體文本分類識別方法、系統、存儲介質和電子設備。

背景技術：

2.通常可以使用神經網絡訓練得到分類模型，從而實現對違禁內容的識別與攔截。為了躲避網絡監管，不良文本內容往往包含了大量的變體，這些變體或是音近、形近，這給網際網路內容監管帶來了巨大的挑戰。為了應對這些變體帶來的挑戰，通常的解決方案是在訓練分類模型的數據集中加入對應的變體樣本。但上述方案在提升模型對於變體樣本召回率的同時，也會降低分類模型的準確率。
3.因此，亟需提供一種技術方案解決現有技術中存在問題。

技術實現要素：

4.為解決上述技術問題，本發明提供了一種變體文本分類識別方法、系統、存儲介質和電子設備。
5.本發明的一種變體文本分類識別方法的技術方案如下：
6.獲取第一文本數據集、受監管語料數據集和未受監管語料數據集，並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集；
7.基於所述第一文本數據集和所述變體糾錯文本數據集，對第一原始神經網絡模型進行訓練，得到用於文本變體糾錯與文本分類識別的目標文本分類模型；
8.將待識別文本輸入至所述目標文本分類模型中，得到包含所述待識別文本的變體糾錯與文本分類的目標識別結果。
9.本發明的一種變體文本分類識別方法的有益效果如下：
10.本發明的方法通過受監管與未受監管語料數據集構建變體糾錯數據集，並通過變體糾錯數據集進行變體糾錯任務訓練，將變體糾錯任務作為輔助任務與分類任務一起訓練模型，能夠對模型的變體語義理解起到正則作用，進而提高分類模型的識別準確率。
11.在上述方案的基礎上，本發明的一種變體文本分類識別方法還可以做如下改進。
12.進一步，還包括：
13.基於所述第一文本數據集，對用於文本分類的第二原始神經網絡模型進行訓練，得到原始文本分類模型。
14.進一步，所述根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集的步驟，包括：
15.利用所述原始文本分類模型對所述受監管語料數據集進行分類，得到受監管語料黑樣本集和受監管語料白樣本集，並利用所述原始文本分類模型對所述未受監管語料數據集進行分類，得到未受監管語料黑樣本集和未受監管語料白樣本集；
16.利用所述受監管語料黑樣本集訓練生成受監管語言模型，並利用所述未受監管語
料黑樣本集訓練生成未受監管語言模型；
17.基於關鍵詞提取技術，從所述未受監管語料黑樣本集中提取黑樣本模板，並根據所述黑樣本模板、所述受監管語言模型和所述未受監管語言模型，得到第一變體映射數據集；
18.對所述第一變體映射數據集進行人工標註，得到目標變體映射數據集，並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集，得到所述變體糾錯文本數據集。
19.採用上述進一步技術方案的有益效果是：進一步通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集，相比於完全人工標註的變體糾錯數據集，提高了變體糾錯數據集的生產效率。
20.進一步，所述利用所述受監管語料黑樣本集訓練生成受監管語言模型，並利用所述未受監管語料黑樣本集訓練生成未受監管語言模型的步驟，包括：
21.採用masked lm方式，對所述受監管語料黑樣本集進行訓練，得到所述受監管語言模型，並對所述未受監管語料黑樣本集進行訓練，得到所述未受監管語言模型。
22.本發明的一種變體文本分類識別系統的技術方案如下：
23.包括：構建模塊、訓練模塊和識別模塊；
24.所述構建模塊用於：獲取第一文本數據集、受監管語料數據集和未受監管語料數據集，並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集；
25.所述訓練模塊用於：基於所述第一文本數據集和所述變體糾錯文本數據集，對第一原始神經網絡模型進行訓練，得到用於文本變體糾錯與文本分類識別的目標文本分類模型；
26.所述識別模塊用於：將待識別文本輸入至所述目標文本分類模型中，得到包含所述待識別文本的變體糾錯與文本分類的目標識別結果。
27.本發明的一種變體文本分類識別系統的有益效果如下：
28.本發明的系統通過受監管與未受監管語料數據集構建變體糾錯數據集，並通過變體糾錯數據集進行變體糾錯任務訓練，將變體糾錯任務作為輔助任務與分類任務一起訓練模型，能夠對模型的變體語義理解起到正則作用，進而提高分類模型的識別準確率。
29.在上述方案的基礎上，本發明的一種變體文本分類識別系統還可以做如下改進。
30.進一步，還包括：處理模塊；
31.所述處理模塊用於：基於所述第一文本數據集，對用於文本分類的第二原始神經網絡模型進行訓練，得到原始文本分類模型。
32.進一步，所述構建模塊具體用於：
33.利用所述原始文本分類模型對所述受監管語料數據集進行分類，得到受監管語料黑樣本集和受監管語料白樣本集，並利用所述原始文本分類模型對所述未受監管語料數據集進行分類，得到未受監管語料黑樣本集和未受監管語料白樣本集；
34.利用所述受監管語料黑樣本集訓練生成受監管語言模型，並利用所述未受監管語料黑樣本集訓練生成未受監管語言模型；
35.基於關鍵詞提取技術，從所述未受監管語料黑樣本集中提取黑樣本模板，並根據
所述黑樣本模板、所述受監管語言模型和所述未受監管語言模型，得到第一變體映射數據集；
36.對所述第一變體映射數據集進行人工標註，得到目標變體映射數據集，並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集，得到所述變體糾錯文本數據集。
37.採用上述進一步技術方案的有益效果是：進一步通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集，相比於完全人工標註的變體糾錯數據集，提高了變體糾錯數據集的生產效率。
38.進一步，所述構建模塊具體用於：
39.採用masked lm方式，對所述受監管語料黑樣本集進行訓練，得到所述受監管語言模型，並對所述未受監管語料黑樣本集進行訓練，得到所述未受監管語言模型。
40.本發明的一種存儲介質的技術方案如下：
41.存儲介質中存儲有指令，當計算機讀取所述指令時，使所述計算機執行如本發明的一種變體文本分類識別方法的步驟。
42.本發明的一種電子設備的技術方案如下：
43.包括存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式，其特徵在於，所述處理器執行所述電腦程式時，使所述計算機執行如本發明的一種變體文本分類識別方法的步驟。
附圖說明
44.圖1為本發明實施例的一種變體文本分類識別方法的流程示意圖；
45.圖2為本發明實施例的一種變體文本分類識別系統的結構示意圖。
具體實施方式
46.如圖1所示，本發明實施例的一種變體文本分類識別方法，包括如下步驟：
47.s1、獲取第一文本數據集、受監管語料數據集和未受監管語料數據集，並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集。
48.其中，
①
第一文本數據集為：包含多條文本的數據集，可用於訓練文本分類模型，第一文本數據集中的每條數據均標註了分類類型，如：違禁、正常等。
②
受監管語料數據集包括：多條受監管的語料文本，受監管的語料文本從受監管人群所發送的文本內容中所獲取，其包含有大量的變體文本。
③
未受監管語料數據集包括：多條未受監管的語料文本，不受監管的語料文本從不受監管人群所發送的文本內容中獲取，其基本不包含有變體文本。
④
變體糾錯文本數據集用於訓練變體糾錯任務，變體糾錯文本數據集包括多個變體數據對。例如，一個變體數據對為：「你是沙子」(變體文本)與「你是傻子」(本體文本)。
49.s2、基於所述第一文本數據集和所述變體糾錯文本數據集，對第一原始神經網絡模型進行訓練，得到用於文本變體糾錯與文本分類識別的目標文本分類模型。
50.其中，
①
第一原始神經網絡模型為：能夠同時用於文本變體糾錯和文本分類識別的神經網絡模型，該模型的兩部分功能共用一個模型骨幹，僅在模型的輸出層存在不同。
②
目標文本分類模型為：經過訓練後所得到的用於文本變體糾錯與文本分類識別的模型。
時，通過關鍵詞提取技術，提取到關鍵詞「傻子」；此時對關鍵詞中的字進行隨機刪除，則得到黑樣本模板：「你是_子」或「你是傻_」。
②
第一變體映射數據集包括：多個低精度的變體對。例如，使用受監管語言模型與未受監管語言模型，都會對同一條黑樣本模板進行預測(補全)；具體地，受監管語言模型對黑樣本模板「你是_子」進行補全，得到「你是沙子」，而未受監管語言模型對黑樣本模板「你是_子」進行補全，得到「你是傻子」，以此得到一個變體對。
66.對所述第一變體映射數據集進行人工標註，得到目標變體映射數據集，並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集，得到所述變體糾錯文本數據集。
67.其中，
①
目標變體映射數據集包括：多個經過人工標註後的變體對。
②
由於白樣本中一般不包含變體，即在受監管語料白樣本集和未受監管語料白樣本集所構建的變體映射對中，其本體與變體均為相應的白樣本自身。
68.需要說明的是，由於第一變體映射數據集可能存在錯誤(因為是模型自動生成的，可能會會存在關鍵詞提取錯誤、受監管語言模型與未受監管語言模型預測錯誤、本體與變體無法匹配等問題)，需要通過人工標註的方式，對第一變體映射數據集進行修正，以此得到高精度的目標變體映射數據集。
69.本實施例的技術方案通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集，相比於完全人工標註的變體糾錯數據集，提高了變體糾錯數據集的生產效率；通過變體糾錯數據集可以進行變體糾錯任務訓練，將變體糾錯任務作為輔助任務與分類任務一同訓練模型，能夠對模型的變體語義理解起到正則作用，進而提高分類模型的識別準確率。
70.如圖2所示，本發明實施例的一種變體文本分類識別系統200，包括：構建模塊210、訓練模塊220和識別模塊230；
71.所述構建模塊210用於：獲取第一文本數據集、受監管語料數據集和未受監管語料數據集，並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集；
72.所述訓練模塊220用於：基於所述第一文本數據集和所述變體糾錯文本數據集，對第一原始神經網絡模型進行訓練，得到用於文本變體糾錯與文本分類識別的目標文本分類模型；
73.所述識別模塊230用於：將待識別文本輸入至所述目標文本分類模型中，得到包含所述待識別文本的變體糾錯與文本分類的目標識別結果。
74.較優地，還包括：處理模塊；
75.所述處理模塊用於：基於所述第一文本數據集，對用於文本分類的第二原始神經網絡模型進行訓練，得到原始文本分類模型。
76.較優地，所述構建模塊210具體用於：
77.利用所述原始文本分類模型對所述受監管語料數據集進行分類，得到受監管語料黑樣本集和受監管語料白樣本集，並利用所述原始文本分類模型對所述未受監管語料數據集進行分類，得到未受監管語料黑樣本集和未受監管語料白樣本集；
78.利用所述受監管語料黑樣本集訓練生成受監管語言模型，並利用所述未受監管語
料黑樣本集訓練生成未受監管語言模型；
79.基於關鍵詞提取技術，從所述未受監管語料黑樣本集中提取黑樣本模板，並根據所述黑樣本模板、所述受監管語言模型和所述未受監管語言模型，得到第一變體映射數據集；
80.對所述第一變體映射數據集進行人工標註，得到目標變體映射數據集，並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集，得到所述變體糾錯文本數據集。
81.較優地，所述構建模塊210具體用於：
82.採用masked lm方式，對所述受監管語料黑樣本集進行訓練，得到所述受監管語言模型，並對所述未受監管語料黑樣本集進行訓練，得到所述未受監管語言模型。
83.本實施例的技術方案通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集，相比於完全人工標註的變體糾錯數據集，提高了變體糾錯數據集的生產效率；通過變體糾錯數據集可以進行變體糾錯任務訓練，將變體糾錯任務作為輔助任務與分類任務一同訓練模型，能夠對模型的變體語義理解起到正則作用，進而提高分類模型的識別準確率。
84.上述關於本實施例的一種變體文本分類識別系統200中的各參數和各個模塊實現相應功能的步驟，可參考上文中關於一種變體文本分類識別方法的實施例中的各參數和步驟，在此不做贅述。
85.本發明實施例提供的一種存儲介質，包括：存儲介質中存儲有指令，當計算機讀取所述指令時，使所述計算機執行如一種變體文本分類識別方法的步驟，具體可參考上文中一種變體文本分類識別方法的實施例中的各參數和步驟，在此不做贅述。
86.計算機存儲介質例如：優盤、移動硬碟等。
87.本發明實施例提供的一種電子設備，包括存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式，其特徵在於，所述處理器執行所述電腦程式時，使所述計算機執行如一種變體文本分類識別方法的步驟，具體可參考上文中一種變體文本分類識別方法的實施例中的各參數和步驟，在此不做贅述。
88.所屬技術領域的技術人員知道，本發明可以實現為方法、系統、存儲介質和電子設備。
89.因此，本發明可以具體實現為以下形式，即：可以是完全的硬體、也可以是完全的軟體(包括固件、駐留軟體、微代碼等)，還可以是硬體和軟體結合的形式，本文一般稱為「電路」、「模塊」或「系統」。此外，在一些實施例中，本發明還可以實現為在一個或多個計算機可讀介質中的電腦程式產品的形式，該計算機可讀介質中包含計算機可讀的程序代碼。可以採用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是但不限於——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件，或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括：具有一個或多個導線的電連接、可攜式計算機磁碟、硬碟、隨機存取存儲器(ram)，只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或快閃記憶體)、光纖、可攜式緊湊磁碟只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中，計算機可讀存儲介質可以是任何包含或存儲程序的有形介質，該程序
可以被指令執行系統、裝置或者器件使用或者與其結合使用。儘管上面已經示出和描述了本發明的實施例，可以理解的是，上述實施例是示例性的，不能理解為對本發明的限制，本領域的普通技術人員在本發明的範圍內可以對上述實施例進行變化、修改、替換和變型。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種變體文本分類識別方法、系統、存儲介質和電子設備與流程

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法