新四季網

一種變體文本分類識別方法、系統、存儲介質和電子設備與流程

2024-04-12 19:27:05



1.本發明涉及文本分類技術領域,尤其涉及一種變體文本分類識別方法、系統、存儲介質和電子設備。


背景技術:

2.通常可以使用神經網絡訓練得到分類模型,從而實現對違禁內容的識別與攔截。為了躲避網絡監管,不良文本內容往往包含了大量的變體,這些變體或是音近、形近,這給網際網路內容監管帶來了巨大的挑戰。為了應對這些變體帶來的挑戰,通常的解決方案是在訓練分類模型的數據集中加入對應的變體樣本。但上述方案在提升模型對於變體樣本召回率的同時,也會降低分類模型的準確率。
3.因此,亟需提供一種技術方案解決現有技術中存在問題。


技術實現要素:

4.為解決上述技術問題,本發明提供了一種變體文本分類識別方法、系統、存儲介質和電子設備。
5.本發明的一種變體文本分類識別方法的技術方案如下:
6.獲取第一文本數據集、受監管語料數據集和未受監管語料數據集,並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集;
7.基於所述第一文本數據集和所述變體糾錯文本數據集,對第一原始神經網絡模型進行訓練,得到用於文本變體糾錯與文本分類識別的目標文本分類模型;
8.將待識別文本輸入至所述目標文本分類模型中,得到包含所述待識別文本的變體糾錯與文本分類的目標識別結果。
9.本發明的一種變體文本分類識別方法的有益效果如下:
10.本發明的方法通過受監管與未受監管語料數據集構建變體糾錯數據集,並通過變體糾錯數據集進行變體糾錯任務訓練,將變體糾錯任務作為輔助任務與分類任務一起訓練模型,能夠對模型的變體語義理解起到正則作用,進而提高分類模型的識別準確率。
11.在上述方案的基礎上,本發明的一種變體文本分類識別方法還可以做如下改進。
12.進一步,還包括:
13.基於所述第一文本數據集,對用於文本分類的第二原始神經網絡模型進行訓練,得到原始文本分類模型。
14.進一步,所述根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集的步驟,包括:
15.利用所述原始文本分類模型對所述受監管語料數據集進行分類,得到受監管語料黑樣本集和受監管語料白樣本集,並利用所述原始文本分類模型對所述未受監管語料數據集進行分類,得到未受監管語料黑樣本集和未受監管語料白樣本集;
16.利用所述受監管語料黑樣本集訓練生成受監管語言模型,並利用所述未受監管語
料黑樣本集訓練生成未受監管語言模型;
17.基於關鍵詞提取技術,從所述未受監管語料黑樣本集中提取黑樣本模板,並根據所述黑樣本模板、所述受監管語言模型和所述未受監管語言模型,得到第一變體映射數據集;
18.對所述第一變體映射數據集進行人工標註,得到目標變體映射數據集,並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集,得到所述變體糾錯文本數據集。
19.採用上述進一步技術方案的有益效果是:進一步通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集,相比於完全人工標註的變體糾錯數據集,提高了變體糾錯數據集的生產效率。
20.進一步,所述利用所述受監管語料黑樣本集訓練生成受監管語言模型,並利用所述未受監管語料黑樣本集訓練生成未受監管語言模型的步驟,包括:
21.採用masked lm方式,對所述受監管語料黑樣本集進行訓練,得到所述受監管語言模型,並對所述未受監管語料黑樣本集進行訓練,得到所述未受監管語言模型。
22.本發明的一種變體文本分類識別系統的技術方案如下:
23.包括:構建模塊、訓練模塊和識別模塊;
24.所述構建模塊用於:獲取第一文本數據集、受監管語料數據集和未受監管語料數據集,並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集;
25.所述訓練模塊用於:基於所述第一文本數據集和所述變體糾錯文本數據集,對第一原始神經網絡模型進行訓練,得到用於文本變體糾錯與文本分類識別的目標文本分類模型;
26.所述識別模塊用於:將待識別文本輸入至所述目標文本分類模型中,得到包含所述待識別文本的變體糾錯與文本分類的目標識別結果。
27.本發明的一種變體文本分類識別系統的有益效果如下:
28.本發明的系統通過受監管與未受監管語料數據集構建變體糾錯數據集,並通過變體糾錯數據集進行變體糾錯任務訓練,將變體糾錯任務作為輔助任務與分類任務一起訓練模型,能夠對模型的變體語義理解起到正則作用,進而提高分類模型的識別準確率。
29.在上述方案的基礎上,本發明的一種變體文本分類識別系統還可以做如下改進。
30.進一步,還包括:處理模塊;
31.所述處理模塊用於:基於所述第一文本數據集,對用於文本分類的第二原始神經網絡模型進行訓練,得到原始文本分類模型。
32.進一步,所述構建模塊具體用於:
33.利用所述原始文本分類模型對所述受監管語料數據集進行分類,得到受監管語料黑樣本集和受監管語料白樣本集,並利用所述原始文本分類模型對所述未受監管語料數據集進行分類,得到未受監管語料黑樣本集和未受監管語料白樣本集;
34.利用所述受監管語料黑樣本集訓練生成受監管語言模型,並利用所述未受監管語料黑樣本集訓練生成未受監管語言模型;
35.基於關鍵詞提取技術,從所述未受監管語料黑樣本集中提取黑樣本模板,並根據
所述黑樣本模板、所述受監管語言模型和所述未受監管語言模型,得到第一變體映射數據集;
36.對所述第一變體映射數據集進行人工標註,得到目標變體映射數據集,並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集,得到所述變體糾錯文本數據集。
37.採用上述進一步技術方案的有益效果是:進一步通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集,相比於完全人工標註的變體糾錯數據集,提高了變體糾錯數據集的生產效率。
38.進一步,所述構建模塊具體用於:
39.採用masked lm方式,對所述受監管語料黑樣本集進行訓練,得到所述受監管語言模型,並對所述未受監管語料黑樣本集進行訓練,得到所述未受監管語言模型。
40.本發明的一種存儲介質的技術方案如下:
41.存儲介質中存儲有指令,當計算機讀取所述指令時,使所述計算機執行如本發明的一種變體文本分類識別方法的步驟。
42.本發明的一種電子設備的技術方案如下:
43.包括存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式,其特徵在於,所述處理器執行所述電腦程式時,使所述計算機執行如本發明的一種變體文本分類識別方法的步驟。
附圖說明
44.圖1為本發明實施例的一種變體文本分類識別方法的流程示意圖;
45.圖2為本發明實施例的一種變體文本分類識別系統的結構示意圖。
具體實施方式
46.如圖1所示,本發明實施例的一種變體文本分類識別方法,包括如下步驟:
47.s1、獲取第一文本數據集、受監管語料數據集和未受監管語料數據集,並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集。
48.其中,

第一文本數據集為:包含多條文本的數據集,可用於訓練文本分類模型,第一文本數據集中的每條數據均標註了分類類型,如:違禁、正常等。

受監管語料數據集包括:多條受監管的語料文本,受監管的語料文本從受監管人群所發送的文本內容中所獲取,其包含有大量的變體文本。

未受監管語料數據集包括:多條未受監管的語料文本,不受監管的語料文本從不受監管人群所發送的文本內容中獲取,其基本不包含有變體文本。

變體糾錯文本數據集用於訓練變體糾錯任務,變體糾錯文本數據集包括多個變體數據對。例如,一個變體數據對為:「你是沙子」(變體文本)與「你是傻子」(本體文本)。
49.s2、基於所述第一文本數據集和所述變體糾錯文本數據集,對第一原始神經網絡模型進行訓練,得到用於文本變體糾錯與文本分類識別的目標文本分類模型。
50.其中,

第一原始神經網絡模型為:能夠同時用於文本變體糾錯和文本分類識別的神經網絡模型,該模型的兩部分功能共用一個模型骨幹,僅在模型的輸出層存在不同。

目標文本分類模型為:經過訓練後所得到的用於文本變體糾錯與文本分類識別的模型。
時,通過關鍵詞提取技術,提取到關鍵詞「傻子」;此時對關鍵詞中的字進行隨機刪除,則得到黑樣本模板:「你是_子」或「你是傻_」。

第一變體映射數據集包括:多個低精度的變體對。例如,使用受監管語言模型與未受監管語言模型,都會對同一條黑樣本模板進行預測(補全);具體地,受監管語言模型對黑樣本模板「你是_子」進行補全,得到「你是沙子」,而未受監管語言模型對黑樣本模板「你是_子」進行補全,得到「你是傻子」,以此得到一個變體對。
66.對所述第一變體映射數據集進行人工標註,得到目標變體映射數據集,並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集,得到所述變體糾錯文本數據集。
67.其中,

目標變體映射數據集包括:多個經過人工標註後的變體對。

由於白樣本中一般不包含變體,即在受監管語料白樣本集和未受監管語料白樣本集所構建的變體映射對中,其本體與變體均為相應的白樣本自身。
68.需要說明的是,由於第一變體映射數據集可能存在錯誤(因為是模型自動生成的,可能會會存在關鍵詞提取錯誤、受監管語言模型與未受監管語言模型預測錯誤、本體與變體無法匹配等問題),需要通過人工標註的方式,對第一變體映射數據集進行修正,以此得到高精度的目標變體映射數據集。
69.本實施例的技術方案通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集,相比於完全人工標註的變體糾錯數據集,提高了變體糾錯數據集的生產效率;通過變體糾錯數據集可以進行變體糾錯任務訓練,將變體糾錯任務作為輔助任務與分類任務一同訓練模型,能夠對模型的變體語義理解起到正則作用,進而提高分類模型的識別準確率。
70.如圖2所示,本發明實施例的一種變體文本分類識別系統200,包括:構建模塊210、訓練模塊220和識別模塊230;
71.所述構建模塊210用於:獲取第一文本數據集、受監管語料數據集和未受監管語料數據集,並根據所述受監管語料數據集和所述未受監管語料數據集構建變體糾錯文本數據集;
72.所述訓練模塊220用於:基於所述第一文本數據集和所述變體糾錯文本數據集,對第一原始神經網絡模型進行訓練,得到用於文本變體糾錯與文本分類識別的目標文本分類模型;
73.所述識別模塊230用於:將待識別文本輸入至所述目標文本分類模型中,得到包含所述待識別文本的變體糾錯與文本分類的目標識別結果。
74.較優地,還包括:處理模塊;
75.所述處理模塊用於:基於所述第一文本數據集,對用於文本分類的第二原始神經網絡模型進行訓練,得到原始文本分類模型。
76.較優地,所述構建模塊210具體用於:
77.利用所述原始文本分類模型對所述受監管語料數據集進行分類,得到受監管語料黑樣本集和受監管語料白樣本集,並利用所述原始文本分類模型對所述未受監管語料數據集進行分類,得到未受監管語料黑樣本集和未受監管語料白樣本集;
78.利用所述受監管語料黑樣本集訓練生成受監管語言模型,並利用所述未受監管語
料黑樣本集訓練生成未受監管語言模型;
79.基於關鍵詞提取技術,從所述未受監管語料黑樣本集中提取黑樣本模板,並根據所述黑樣本模板、所述受監管語言模型和所述未受監管語言模型,得到第一變體映射數據集;
80.對所述第一變體映射數據集進行人工標註,得到目標變體映射數據集,並根據所述目標變體映射數據集、所述受監管語料白樣本集和所述未受監管語料白樣本集,得到所述變體糾錯文本數據集。
81.較優地,所述構建模塊210具體用於:
82.採用masked lm方式,對所述受監管語料黑樣本集進行訓練,得到所述受監管語言模型,並對所述未受監管語料黑樣本集進行訓練,得到所述未受監管語言模型。
83.本實施例的技術方案通過構建受監管語言模型與未受監管語言模型自動構建變體糾錯數據集,相比於完全人工標註的變體糾錯數據集,提高了變體糾錯數據集的生產效率;通過變體糾錯數據集可以進行變體糾錯任務訓練,將變體糾錯任務作為輔助任務與分類任務一同訓練模型,能夠對模型的變體語義理解起到正則作用,進而提高分類模型的識別準確率。
84.上述關於本實施例的一種變體文本分類識別系統200中的各參數和各個模塊實現相應功能的步驟,可參考上文中關於一種變體文本分類識別方法的實施例中的各參數和步驟,在此不做贅述。
85.本發明實施例提供的一種存儲介質,包括:存儲介質中存儲有指令,當計算機讀取所述指令時,使所述計算機執行如一種變體文本分類識別方法的步驟,具體可參考上文中一種變體文本分類識別方法的實施例中的各參數和步驟,在此不做贅述。
86.計算機存儲介質例如:優盤、移動硬碟等。
87.本發明實施例提供的一種電子設備,包括存儲器、處理器及存儲在存儲器上並可在處理器上運行的電腦程式,其特徵在於,所述處理器執行所述電腦程式時,使所述計算機執行如一種變體文本分類識別方法的步驟,具體可參考上文中一種變體文本分類識別方法的實施例中的各參數和步驟,在此不做贅述。
88.所屬技術領域的技術人員知道,本發明可以實現為方法、系統、存儲介質和電子設備。
89.因此,本發明可以具體實現為以下形式,即:可以是完全的硬體、也可以是完全的軟體(包括固件、駐留軟體、微代碼等),還可以是硬體和軟體結合的形式,本文一般稱為「電路」、「模塊」或「系統」。此外,在一些實施例中,本發明還可以實現為在一個或多個計算機可讀介質中的電腦程式產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼。可以採用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是但不限於——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、可攜式計算機磁碟、硬碟、隨機存取存儲器(ram),只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或快閃記憶體)、光纖、可攜式緊湊磁碟只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序
可以被指令執行系統、裝置或者器件使用或者與其結合使用。儘管上面已經示出和描述了本發明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發明的限制,本領域的普通技術人員在本發明的範圍內可以對上述實施例進行變化、修改、替換和變型。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀