一種網絡小說內容近似度比對方法
2023-09-19 16:43:00 2
專利名稱:一種網絡小說內容近似度比對方法
技術領域:
本發明涉及一種內容近似度比對方法,更具體地,涉及一種針對網絡小說的內容近似度比對方法。
背景技術:
隨著網際網路技術的飛速發展,網際網路上的各種數字內容越來越多,呈爆炸性增長趨勢,包括各種內容的頁面、學術論文、網絡小說、學生作業等等,面對如此眾多的數字內容,實現內容自動查重(近似度比對)是一項非常重要的技術,通過查重可以實現搜尋引擎內容的重複檢索、發表內容的抄襲檢測、入庫內容的非重複錄入、有關研究內容的查新等。查重技術源於複製檢測技術。複製檢測,就是判斷一個文件的內容是否抄襲、剽竊或者複製於另外一個或多個文件。剽竊不僅僅意味著原封不動地照搬,還包括對原作的移位變換、同義詞替換以及改變說法重述等方式。查重技術從原理上分為兩類:基於語法的方法(基於Shingle的方法)和基於語義的方法(基於Term的方法)。其中:Shingle是指文檔中若干個連續出現的單詞,這種方法從文檔中選取一系列Shingle後統計相同的Shingle數目或者比率,作為判斷文本相似度的依據。基於Term的方法採用單個詞條作為計算的基本單元,而不考慮詞條出現的位置和順序.其中最著名的就是1-Match方法,選取IDF值(inverse document frequency,逆文本頻率)較高的詞條排序後構成為文檔的特徵向量值,特徵向量值相似的文檔被視為內容近似。其他基於Term的方法也大都採用SVM(Support Vector Machine,支持向量機)模型,利用TF/IDF(Term Frequency,詞條頻率)值進行文檔關鍵詞的提取,並將關鍵詞作為文檔的特徵向量,通過計算文檔間的近似度來進行近似度的檢測。當前已有針對網頁內容和學術論文的近似度比對方法,針對頁面的近似度比對的重點在於整個頁面內容和格式的重複,學術論文查重的重點在於核心內容和方法的重複抄襲。但是網絡小說有不同於網頁和學術論文的特點,而且現有的針對網頁和學術論文的直接處理方法計算量大,處理速度慢。因此,針對當前蓬勃發展的網絡小說這一新內容形式,為了保護作者利益,亟需一種針對網絡小說的處理更快速的近似度比對方法。
發明內容
針對上述問題,本發明提供了一種網絡小說內容近似度比對方法,包括:預處理步驟:對待比對網絡小說進行預處理,提取關鍵詞,將關鍵詞進行同義詞替換,以形成規範化網絡小說;特徵指紋提取步驟:將待比對網絡小說中的拆分為多組臨近有序詞,並對每一組臨近有序詞進行哈希運算形成的哈希表作為特徵指紋;以及特徵指紋比對步驟:將所述特徵指紋與特徵比對庫中存儲的現有網絡小說的特徵指紋相比較,以兩者的特徵指紋相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。
本發明的優點是:(I)針對網絡小說的特點進行近似度比對;(2)近似度比對方法通過針對性的步驟,避免了方法複雜度大引起的效率不高問題,又避免了針對性不強引起的漏查問題;(3)本發明的方法具有自學習能力,通過學習機制,積累知識,提高查重準確度。
圖1為本發明的網絡小說內容近似度比對方法的流程圖。
具體實施例方式網絡小說內容的本身的特殊性,是具有特殊的章節,特定人物,特定的時間和空間,以及這三個方面的彼此結合,構成了一個網絡小說的自身特徵。因此,本發明的方法的近似度比對主要針對:⑴重要章節的完全重複;⑵核心人物的情節重複;⑶時間空間的映射轉換。如圖1所示,本發明首先對待比對網絡小說進行預處理,然後進行特徵提取,與特徵比對庫中存儲的現有網絡小說的特徵進行比對,從而確定待比對網絡小說與現有網絡小說的近似度。下面詳述本發明的近似度比對方法。1.預處理:I)同義詞替換優選地,在對待比對網絡小說預處理之前,先去除網絡小說的非內容信息,例如格式信息、版本信息等。網絡小說預處理同義詞特徵庫(WIS)是網絡小說中同義詞特徵的集合。這裡,同義詞包括等價關係、包含關係和相關關係。等價關係就是通過增加同義詞來提高獲取網絡小說內容的回應率(recall)。如:「計算機」、「電腦」、「computer」是等價關係,在比對過程中,不管這三個詞的任何一個,通過等價關係處理都可以把其它兩個等價詞加入詞中。這裡用「equal (「計算機」)={「電腦」,「computer」 } 」表示「計算機」的等價關係集合。包含關係就是詞含義的包容。如:「計算機」包含「微機」、「小型機」、「中型機」、「大型機」、「並行機」等。包含關係的引入也是為了提高網絡小說內容的回應率(recall)。當系統進行「計算機」關鍵詞處理時,發現有「計算機」包含關係詞的內容,那麼系統也會認為此內容滿足比對要求。這裡用「include( 「計算機」)={ 「微機」,「小型機」,「中型機」,「大型機」,「並行機」 } 」表示「計算機」的包含關係集合。相關關係是指詞之間的關聯性,在這裡主要是指與主題詞的相關信息。如:主題詞「計算機」和「信息處理」、「數據管理」、「數據分析」等具有相關關係。詞之間的相關關係定義與所涉及的領域有密切的聯繫。這裡用「interrelate ( 「計算機」)={ 「信息處理」,「數據管理」,「數據分析」 } 」表示「計算機」的相關關係集合。WIS為關鍵詞集合(Keyword_Set)、等價關係集合(Equal_Set)、包含關係集合(Include_Set)、相關關係集合(interrelate_Set)的四元組,即:WIS =〈Keyword—Set,Equal—Set,Include—Set,Interrelate—Set〉例如:
WIS =〈{//關鍵詞集合「計算機」,「電腦」,「computer」,「微機」,「小型機」,「中型機」,「大型機」,「並行機」,「信息處理」,「數據管理」,「數據分析」,「IBM微機」,「Compaq微機」,「Digital微機」,「Dell
微機」,「王勇」,「老王」,「王市長」
權利要求
1.一種網絡小說內容近似度比對方法,其特徵在於,包括: 預處理步驟:對待比對網絡小說進行預處理,提取關鍵詞,將關鍵詞進行同義詞替換,以形成規範化網絡小說; 特徵指紋提取步驟:將待比對網絡小說中的拆分為多組臨近有序詞,並對每一組臨近有序詞進行哈希運算形成的哈希表作為特徵指紋;以及 特徵指紋比對步驟:將所述特徵指紋與特徵比對庫中存儲的現有網絡小說的特徵指紋相比較,以兩者的特徵指紋相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。
2.根據權利要求1所述的網絡小說內容近似度比對方法,其特徵在於,還包括: 第一類型特徵向量提取步驟:將待比對網絡小說以詞條進行分解,去除出現的高頻詞和低頻詞,然後按照出現頻率進行排序,以形成第一類型特徵向量; 第一類型特徵向量比對步驟:將所述第一類型特徵向量與特徵比對庫中存儲的現有網絡小說的第一類型特徵向量相比較,以兩者的詞條相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。
3.根據權利要求1所述的網絡小說內容近似度比對方法,其特徵在於,還包括: 第二類型特徵向量提取步驟:將待比對網絡小說進行概念抽取,並與其位置信息一起構成第二類型特徵向量; 第二類型特徵向量比對步 驟:將所述第二類型特徵向量與特徵比對庫中存儲的現有網絡小說的第二類型特徵向量相比較,以兩者的近似度來確定待比對網絡小說與現有網絡小說的近似度。
4.根據權利要求1至3中任意一項所述的網絡小說內容近似度比對方法,其特徵在於,所述預處理步驟進一步包括: 設定待比對網絡小說的關鍵詞; 提取所述關鍵詞的等價關係集合和包含關係集合,所述關鍵詞設定為根關鍵詞,其包含關係集合中的關鍵詞設定為葉子關鍵詞; 替換步驟:在所述待比對網絡小說中,用所述關鍵詞替換其等價關係集合和包含關係集合中的全部元素關鍵詞,以形成規範化網絡小說。
5.根據權利要求4所述的網絡小說內容近似度比對方法,其特徵在於,在所述替換步驟中:先對葉子關鍵詞進行替換,然後對根關鍵詞進行替換。
6.根據權利要求1所述的網絡小說內容近似度比對方法,其特徵在於,進一步包括:如果該待比對網絡小說與特徵比對庫中的網絡小說的近似度低於一閾值,則將該待比對網絡小說的特徵指紋增量加入到該特徵比對庫中。
7.根據權利要求2所述的網絡小說內容近似度比對方法,其特徵在於,進一步包括:如果該待比對網絡小說與特徵比對庫中的網絡小說的近似度低於一閾值,則將該待比對網絡小說的第一類型特徵向量加入到該特徵比對庫中。
8.根據權利要求3所述的網絡小說內容近似度比對方法,其特徵在於,進一步包括:如果該待比對網絡小說與特徵比對庫中的網絡小說的近似度低於一閾值,則將該待比對網絡小說的第二類型特徵向量加入到該特徵比對庫中。
9.根據權利要求4所述的網絡小說內容近似度比對方法,其特徵在於,所述預處理步驟還包括:去除待比 對網絡小說的非內容信息,包括格式信息和版本信息。
全文摘要
一種網絡小說內容近似度比對方法,包括預處理步驟對待比對網絡小說進行預處理,提取關鍵詞,將關鍵詞進行同義詞替換,以形成規範化網絡小說;特徵指紋提取步驟將待比對網絡小說中的拆分為多組臨近有序詞,並對每一組臨近有序詞進行哈希運算形成的哈希表作為特徵指紋;以及特徵指紋比對步驟將所述特徵指紋與特徵比對庫中存儲的現有網絡小說的特徵指紋相比較,以兩者的特徵指紋相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。本發明的方法用於網絡小說的近似度比對,通過預處理避免了方法複雜度大引起的效率不高,又避免了針對性不強引起的漏查,且具有自學習能力,提高了查重準確度。
文檔編號G06F17/30GK103207864SQ201210011329
公開日2013年7月17日 申請日期2012年1月13日 優先權日2012年1月13日
發明者劉瑞虹, 姜波 申請人:北京中文在線數字出版股份有限公司