一種基於雙層分類模型的中文作者識別方法及其裝置的製作方法

2023-05-30 09:43:16 2

專利名稱：一種基於雙層分類模型的中文作者識別方法及其裝置的製作方法
技術領域：
本發明涉及中文自然語言處理領域以及中文作者識別領域，尤指一種基於雙層分類模型的中文作者識別方法及其裝置。
背景技術：
近年來，抄襲剽竊之風在文學創作、論文寫作等學術領域愈演愈烈。比如上海發生數起國家社會科學基金項目論文抄襲剽竊事件；80後作家郭敬明的《夢裡花落知多少》涉嫌抄襲；吉林省文聯攝影家協會常務副主席桑玉柱涉嫌剽竊冒用他人作品；清華大學中文系教授、《讀書》雜誌前任主編汪暉寫於20多年前的博士論文《反抗絕望》，被南京大學中文系教授王彬彬指出存在多處抄襲；之後，學壇宿儒朱學勤也被人指責有「剽竊」行為。·與此同時，隨著資訊時代的到來，尤其是網際網路的普及，通過網絡產生的版權問題也逐漸進入人們的視野，比如中國新聞出版網上發表的一則關於博客文章剽竊造成侵權的新聞。據法院調查統計顯示，自1999年北京市法院審理了我國首例網絡著作權案件後，2009年的網絡著作權案件已佔全部著作權案件的47. 6%，達到1800餘件，成為北京市法院智慧財產權案件的重要組成部分。除此之外，通過網絡產生的安全問題也越來越引起人們的重視，早在二十世紀九十年代初，美國的銀行企業就出現過電子郵件欺詐的案例。另外還有大量郵件濫用的現象，比如通過電子郵件進行恐怖威脅、傳播病毒、色情等非法活動。由於郵件伺服器不會對發信人身份的合法性做任何檢查，一旦被不法分子利用，用戶的利益和正常的經濟秩序將會受到很大的負面影響。作者識別(Authorship Identification)是給定一個待判定作者的作品，比如一篇文章、一封郵件甚至是一段文字，通過作品涉及到的爭議作者所著的其他作品推測作者寫作風格，並與待判定歸屬的作品風格進行比較，從而識別出真正的作者。在現實世界中的法證領域，可以利用指紋來識別個人，而作者識別則是利用作品字裡行間的蛛絲馬跡來進行識別。作者識別是一個應用廣泛的研究領域，可以應用於中外文學作品的作者考證領域，也可以應用於版權保護、惡意郵件識別等信息安全領域。通過分析作品的寫作風格來推測作者這一工作，很早以前就有國外的一些語言學家開始進行研究了。國內關於作者識別的研究起步相對較晚，並且由於中文的特殊性，對於中文作者識別的研究相對較少，對於能有效區分不同中文作品寫作風格的特徵並不多，可以說有效的中文作品特徵的發現目前還處於探索階段。同時該領域中現有大多數方法存在的問題是識別的準確率很大程度上依賴於訓練分類器的作者數目，作者數目在10個到20個以內一般能夠取得比較理想的效果，但是一旦作者數目持續增大，將會造成識別準確率的下降，因此實際的應用性受到了限制。本發明針對中文作品以及中文作者識別研究中存在的上述問題，將中文自然語言處理領域中的概念和技術應用於中文作者識別研究中，實現了一種基於雙層分類模型的中文作者識別方法和裝置。

發明內容
本發明旨在針對中文，發掘出新的有效特徵；解決高維特徵向量中包含的噪聲導致識別準確率下降的問題；以及當作者個數比較多(大於20個)造成的識別準確率低下的問題。本發明採用如下方案針對作者個數超過20個的情況，實現一種基於雙層分類模型的中文作者識別方法及其裝置。雙層分類作者識別模型如圖I所示第一層為作者分組層，作者分組層所做的工作是使用聚類算法將作者分成若干組，每個組中包含若干作者，每個組內的作者個數遠小於原始作者個數。假設給定一篇待識別的作品，屬於相同組的作者被預先標記成相同的類別，通過分類器的處理預測該作品屬於哪個類別，也就是哪一個分組。本發明針對該層提出一種基於詞義的中文作者表示方法，通過作者作品中表達的詞義上的相似性先對作者進行分組，使得每一組中作者數目相對較少(一般不超過20個)。本發明根據《同義詞詞林》、《哈工大同義詞詞林擴展版》選取了88個中類標記在作品中出現的頻數作為作者向量的特徵。該層的工作原理是對作者進行聚類，我們關注的是找到作者與作者之間的相同或相似的部分，比如說作者的作品常涉及到哪些事物，一般說來，作者所撰寫的大多數作品內容與他們自身的專業知識結構或者個人的閱歷和偏好是相關的。有些作者傾向於關注人物情感或者心理方面的描寫，有些作者傾向於關注撰寫歷史時事評論，有些作者傾向於關注撰寫文學理論或社會活動。為了儘量找到作者之間寫作的相同或相似之處，同時又能夠刻畫出每個作者自身的一些寫作特點，我們以作者作品中所包含詞語的詞義為出發點，考慮作品中所包含的詞義，以及各詞義所屬的抽象種類(比如人、物、時間空間、政治、軍事、管理等)，通過這些抽象種類來表示作者特徵。第二層為作者識別層，作者識別層所做的工作是，根據上一層作者分組層預測待識別作品屬於哪一分組的結果，通過分類器識別出該作品屬於分組中的具體哪一位作者。識別在組內相對較少的作者數中進行，可以解決當作者個數很多時導致識別準確率下降的問題。本發明在該層中提取出24種依存關係作為句法層上的有效特徵，與虛詞、標點符號、詞性標記相結合構成一個大特徵集，同時針對大量特徵中包含的無用屬性或噪音導致識別準確率下降的情況，採用主成分分析方法(Principal Component Analysis, PCA)對特徵集進行優化。然後根據作者分組層的結果，對組內作者進行進一步識別。需要指出的是，作者分組層和作者識別層分別進行一次分類處理，因此本發明在整個識別過程中，一共進行兩次分類處理。本發明提出的方法實現的總體步驟如下第一步語料收集。給出一篇待識別的作品，為了識別出真正的作者，需要收集所有潛在作者的作品，這些作品集也就構成了作者識別中的語料庫。為了方便後面進行分類訓練和測試，在進行特徵提取之前，把每位作者的作品按一定比例(比如6:4或7:3)分成訓練集和測試集。第二步作者分組。作者分組流程如圖2所示。首先使用詞義標記模塊，以每位作者的作品集為單位，對每篇作品進行詞義標記。詞義標記的部分結果如圖3所示；然後使用計算模塊計算每篇文檔中詞義標記(詞義標記按照字母順序進行先後計數)所出現的頻數，並且對每位作者的所有作品中詞義標記頻數分別進行累加和規格化處理(規格化處理的目的是忽略作品長度不同以及每位作者作品數不同帶來的影響)，從而最終得到對應的作者向量，將每個作者向量存儲在同一個文檔中，構成一個作者向量庫。作者向量庫如圖4所示；最後使用k-means聚類算法對作者向量庫中的作者向量進行聚類，得到作者聚類，即分組結果。圖5為weka中的聚類結果示意圖。第三步作者識別。作者識別的整體框架如圖6所示。首先使用特徵提取器提取出有效的特徵。具體是依據預先選定的能夠有效表示作者寫作風格的特徵集，使用中文處理模塊對作品進行分句、分詞、詞性標註以及依存語法分析等；使用計算模塊對每個特徵所對應的標記在每篇作品中出現的頻數進行計數，利用向量空間模型將每篇作品表示成一個特徵向量，特徵向量的維數就是特徵集中包含的特徵個數，將計算模塊的輸出結果保存起來，這樣每篇作品都會對應一個特徵向量。特徵提取器如圖7所示。如果涉及到高維特徵向量，使用基於PCA的特徵優化器來對輸入的高維特徵向量進行降維和優化。輸出的是高維特徵向量經過優化得到的維數較低的特徵向量。最後使用分類器來生成識別模型。分類器的輸入分為兩部分，一部分是訓練特徵向量集，一部分是測試特徵向量集。訓練特徵向量集用來訓練分類器，測試向量集用來驗證分類的準確率。分類器的輸出是訓練好的識別模型，這個模型可以用來對未知的作品進行作者識別。

圖I為雙層分類中文作者識別模型示意2為作者分組層流程示意3為詞義標記的部分結果示意4為作者向量庫的部分結果示意5為weka中的聚類結果示意6作者識別層框架示意7特徵提取器示意8分詞、詞性標記的部分結果示意9依存語法分析的部分結果示意圖
具體實施例方式為使本發明的目的、技術方案更加清晰，下面對本發明具體實施方式
進行詳細說明。基於雙層分類模型的中文作者識別方法的具體步驟如下第一步，獲取作者向量。使用詞義標記模塊對中文作品中的詞語進行詞義標記。詞義標記模塊的輸入是一篇作品，通過調用哈工大社會計算與信息檢索研究中心免費共享的語言技術平臺(LTP)的全文詞義消歧模塊，在對作品中的語句進行標註之後，將標註的結果保存在新的文檔中。對於每篇進行了詞義標註的文檔，計算模塊將其作為輸入，提取出每篇文檔中88個詞義標記(88個詞義標記按照字母順序進行先後計數)所出現的頻數，並且對每位作者的所有作品中這88個詞義標記頻數分別進行累加和規格化處理(規格化處理的目的是忽略作品長度不同以及每位作者作品數不同帶來的影響)，從而最終得到對應的作者向量
權利要求
1.一種基於雙層分類模型的中文作者識別方法及其裝置，利用雙層分類作者識別模型，即在傳統的作者識別層之前添加一個作者分組層 a.在第一層作者分組層中提出一種基於詞義的中文作者表不方法，將每位作者表不成對應的作者向量，使用聚類算法對作者進行分組，使得每一組中作者數目相對較少(一般不超過20個)； b.第二層為作者識別層，根據作者分組層得到的結果，將自然語言處理中的依存語法關係作為句法層次的有效特徵，同時結合已有的虛詞、標點符號和詞性頻數構成一個大特徵集對中文作品進行識別，對於大量特徵產生的噪聲所導致識別準確率下降的問題，利用主成分分析方法對特徵集進行降維和優化，在組內進行作者識別，得到最終的識別結果。
2.根據權利要求I所述的方法，其特徵在於，作者分組層的操作步驟如下 a.首先使用哈工大社會計算與信息檢索研究中心免費共享的語言技術平臺LTP包含的詞義消歧模塊來完成作者分組層中詞義標記模塊的功能，以每位作者的作品集為單位，對每篇作品進行詞義標記；詞義標記模塊的輸入是中文作品，輸出是進行了詞義標記的作品文檔； b.計算每篇文檔中詞義標記(詞義標記按照字母順序進行先後計數)所出現的頻數，並且對每位作者的所有作品中詞義標記頻數分別進行累加和規格化處理(規格化處理的目的是忽略作品長度不同以及每位作者作品數不同帶來的影響)，從而最終得到對應的作者向量，將每個作者向量存儲在同一個文檔中，構成一個作者向量庫； c.使用數據挖掘工具weka中自帶的k-means聚類算法對作者向量庫中的作者向量進行聚類，得到作者分組結果。
3.根據權利要求I所述的方法，其特徵在於，作者識別層的過程如下 a.中文處理模塊使用中科院計算所開發的漢語分詞系統ICTCLAS對輸入的作品進行詞法分析，使用LTP進行依存語法分析； b.獲取虛詞、標點符號、詞性標記和依存關係的頻數並進行規格化，得到每篇作品的特徵向量； c.對於特徵向量維數比較高的情況，可以使用基於PCA的特徵優化器對特徵向量進行降維和優化； d.使用Iibsvm對輸入的訓練特徵向量和測試特徵向量進行學習和測試，得到識別的準確率。
4.根據權利要求2所述的方法，其特徵在於，作者分組層使用聚類算法將作者分成若干組，每個組中包含若干作者，每個組內的作者個數遠小於原始的作者個數，並且每個分組包含數目合理的作者；假設原本有20位作者，我們將這20位作者分為3組，那麼比較合理的聚類結果(即分組結果)是每個組包含5-8位作者，如果一個組內出現只包含I位作者的情況，那麼對分類器的訓練學習是不利的，很可能會影響分類預測的準確率。
5.根據權利要求2所述的方法，其特徵在於，得到聚類(分組)結果以後，屬於相同組的作者被預先標記成相同的類別，提取每篇作品的特徵(比如虛詞、標點符號、詞性標記和依存關係等)，特徵向量與對應的作者所屬類別相同；比如作者I有30篇作品，根據聚類結果，該作者屬於簇0，那麼這30篇作品對應的30個特徵向量也被事先標記為0，作為分類器的輸入；給定一篇待識別的作品，使用特徵提取器得到該作品對應的特徵向量，然後利用分類器在作者分組層分類中得到的模型來預測該特徵向量，也就是該作品屬於哪一個類別，即屬於哪一組。
6.根據權利要求2所述的方法，其特徵在於，作者分組層分類過程中，由於涉及到的作者數和樣本數比較多，可以將多類特徵相結合以提高該層分類的準確率。
7.根據權利要求3所述的方法，其特徵在於，當涉及到高維特徵向量造成識別準確率下降的情況，使用基於PCA的特徵優化器可以對高維特徵向量進行降維和優化；將優化以後的特徵向量作為Iibsvm分類器的輸入；如果特徵向量維數並不高，那麼可以跳過特徵優化，直接將原始的特徵向量作為分類器的輸入。
全文摘要
本發明涉及一種基於雙層分類模型的中文作者識別方法及其裝置，屬於信息安全領域。針對作者個數較多造成的識別準確率低下的問題，在作者識別模型中添加一個作者分組層，將每位作者表示成作者向量，使用聚類算法對作者進行分組；第二層為作者識別層，在該層提取依存關係、虛詞、標點符號以及詞性標記作為特徵，在組內進行作者識別。使用本發明的方法或裝置，可以有效解決作者個數較多而導致識別準確率下降的問題；同時，提出的基於主成分分析方法的特徵降維和優化方法，可以解決高維特徵向量中包含的噪聲影響識別準確率的問題。本發明可以應用於文學作品的作者考證領域，也可以應用於版權保護等信息安全領域。
文檔編號G06F17/30GK102880631SQ20121023128
公開日2013年1月16日申請日期2012年7月5日優先權日2012年7月5日
發明者劉玉玲, 萬晶申請人:湖南大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種基於雙層分類模型的中文作者識別方法及其裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法