新四季網

一種網絡小說內容近似度比對方法

2023-09-19 16:43:00 2

專利名稱:一種網絡小說內容近似度比對方法
技術領域:
本發明涉及一種內容近似度比對方法,更具體地,涉及一種針對網絡小說的內容近似度比對方法。
背景技術:
隨著網際網路技術的飛速發展,網際網路上的各種數字內容越來越多,呈爆炸性增長趨勢,包括各種內容的頁面、學術論文、網絡小說、學生作業等等,面對如此眾多的數字內容,實現內容自動查重(近似度比對)是一項非常重要的技術,通過查重可以實現搜尋引擎內容的重複檢索、發表內容的抄襲檢測、入庫內容的非重複錄入、有關研究內容的查新等。查重技術源於複製檢測技術。複製檢測,就是判斷一個文件的內容是否抄襲、剽竊或者複製於另外一個或多個文件。剽竊不僅僅意味著原封不動地照搬,還包括對原作的移位變換、同義詞替換以及改變說法重述等方式。查重技術從原理上分為兩類:基於語法的方法(基於Shingle的方法)和基於語義的方法(基於Term的方法)。其中:Shingle是指文檔中若干個連續出現的單詞,這種方法從文檔中選取一系列Shingle後統計相同的Shingle數目或者比率,作為判斷文本相似度的依據。基於Term的方法採用單個詞條作為計算的基本單元,而不考慮詞條出現的位置和順序.其中最著名的就是1-Match方法,選取IDF值(inverse document frequency,逆文本頻率)較高的詞條排序後構成為文檔的特徵向量值,特徵向量值相似的文檔被視為內容近似。其他基於Term的方法也大都採用SVM(Support Vector Machine,支持向量機)模型,利用TF/IDF(Term Frequency,詞條頻率)值進行文檔關鍵詞的提取,並將關鍵詞作為文檔的特徵向量,通過計算文檔間的近似度來進行近似度的檢測。當前已有針對網頁內容和學術論文的近似度比對方法,針對頁面的近似度比對的重點在於整個頁面內容和格式的重複,學術論文查重的重點在於核心內容和方法的重複抄襲。但是網絡小說有不同於網頁和學術論文的特點,而且現有的針對網頁和學術論文的直接處理方法計算量大,處理速度慢。因此,針對當前蓬勃發展的網絡小說這一新內容形式,為了保護作者利益,亟需一種針對網絡小說的處理更快速的近似度比對方法。

發明內容
針對上述問題,本發明提供了一種網絡小說內容近似度比對方法,包括:預處理步驟:對待比對網絡小說進行預處理,提取關鍵詞,將關鍵詞進行同義詞替換,以形成規範化網絡小說;特徵指紋提取步驟:將待比對網絡小說中的拆分為多組臨近有序詞,並對每一組臨近有序詞進行哈希運算形成的哈希表作為特徵指紋;以及特徵指紋比對步驟:將所述特徵指紋與特徵比對庫中存儲的現有網絡小說的特徵指紋相比較,以兩者的特徵指紋相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。
本發明的優點是:(I)針對網絡小說的特點進行近似度比對;(2)近似度比對方法通過針對性的步驟,避免了方法複雜度大引起的效率不高問題,又避免了針對性不強引起的漏查問題;(3)本發明的方法具有自學習能力,通過學習機制,積累知識,提高查重準確度。


圖1為本發明的網絡小說內容近似度比對方法的流程圖。
具體實施例方式網絡小說內容的本身的特殊性,是具有特殊的章節,特定人物,特定的時間和空間,以及這三個方面的彼此結合,構成了一個網絡小說的自身特徵。因此,本發明的方法的近似度比對主要針對:⑴重要章節的完全重複;⑵核心人物的情節重複;⑶時間空間的映射轉換。如圖1所示,本發明首先對待比對網絡小說進行預處理,然後進行特徵提取,與特徵比對庫中存儲的現有網絡小說的特徵進行比對,從而確定待比對網絡小說與現有網絡小說的近似度。下面詳述本發明的近似度比對方法。1.預處理:I)同義詞替換優選地,在對待比對網絡小說預處理之前,先去除網絡小說的非內容信息,例如格式信息、版本信息等。網絡小說預處理同義詞特徵庫(WIS)是網絡小說中同義詞特徵的集合。這裡,同義詞包括等價關係、包含關係和相關關係。等價關係就是通過增加同義詞來提高獲取網絡小說內容的回應率(recall)。如:「計算機」、「電腦」、「computer」是等價關係,在比對過程中,不管這三個詞的任何一個,通過等價關係處理都可以把其它兩個等價詞加入詞中。這裡用「equal (「計算機」)={「電腦」,「computer」 } 」表示「計算機」的等價關係集合。包含關係就是詞含義的包容。如:「計算機」包含「微機」、「小型機」、「中型機」、「大型機」、「並行機」等。包含關係的引入也是為了提高網絡小說內容的回應率(recall)。當系統進行「計算機」關鍵詞處理時,發現有「計算機」包含關係詞的內容,那麼系統也會認為此內容滿足比對要求。這裡用「include( 「計算機」)={ 「微機」,「小型機」,「中型機」,「大型機」,「並行機」 } 」表示「計算機」的包含關係集合。相關關係是指詞之間的關聯性,在這裡主要是指與主題詞的相關信息。如:主題詞「計算機」和「信息處理」、「數據管理」、「數據分析」等具有相關關係。詞之間的相關關係定義與所涉及的領域有密切的聯繫。這裡用「interrelate ( 「計算機」)={ 「信息處理」,「數據管理」,「數據分析」 } 」表示「計算機」的相關關係集合。WIS為關鍵詞集合(Keyword_Set)、等價關係集合(Equal_Set)、包含關係集合(Include_Set)、相關關係集合(interrelate_Set)的四元組,即:WIS =〈Keyword—Set,Equal—Set,Include—Set,Interrelate—Set〉例如:
WIS =〈{//關鍵詞集合「計算機」,「電腦」,「computer」,「微機」,「小型機」,「中型機」,「大型機」,「並行機」,「信息處理」,「數據管理」,「數據分析」,「IBM微機」,「Compaq微機」,「Digital微機」,「Dell
微機」,「王勇」,「老王」,「王市長」
權利要求
1.一種網絡小說內容近似度比對方法,其特徵在於,包括: 預處理步驟:對待比對網絡小說進行預處理,提取關鍵詞,將關鍵詞進行同義詞替換,以形成規範化網絡小說; 特徵指紋提取步驟:將待比對網絡小說中的拆分為多組臨近有序詞,並對每一組臨近有序詞進行哈希運算形成的哈希表作為特徵指紋;以及 特徵指紋比對步驟:將所述特徵指紋與特徵比對庫中存儲的現有網絡小說的特徵指紋相比較,以兩者的特徵指紋相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。
2.根據權利要求1所述的網絡小說內容近似度比對方法,其特徵在於,還包括: 第一類型特徵向量提取步驟:將待比對網絡小說以詞條進行分解,去除出現的高頻詞和低頻詞,然後按照出現頻率進行排序,以形成第一類型特徵向量; 第一類型特徵向量比對步驟:將所述第一類型特徵向量與特徵比對庫中存儲的現有網絡小說的第一類型特徵向量相比較,以兩者的詞條相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。
3.根據權利要求1所述的網絡小說內容近似度比對方法,其特徵在於,還包括: 第二類型特徵向量提取步驟:將待比對網絡小說進行概念抽取,並與其位置信息一起構成第二類型特徵向量; 第二類型特徵向量比對步 驟:將所述第二類型特徵向量與特徵比對庫中存儲的現有網絡小說的第二類型特徵向量相比較,以兩者的近似度來確定待比對網絡小說與現有網絡小說的近似度。
4.根據權利要求1至3中任意一項所述的網絡小說內容近似度比對方法,其特徵在於,所述預處理步驟進一步包括: 設定待比對網絡小說的關鍵詞; 提取所述關鍵詞的等價關係集合和包含關係集合,所述關鍵詞設定為根關鍵詞,其包含關係集合中的關鍵詞設定為葉子關鍵詞; 替換步驟:在所述待比對網絡小說中,用所述關鍵詞替換其等價關係集合和包含關係集合中的全部元素關鍵詞,以形成規範化網絡小說。
5.根據權利要求4所述的網絡小說內容近似度比對方法,其特徵在於,在所述替換步驟中:先對葉子關鍵詞進行替換,然後對根關鍵詞進行替換。
6.根據權利要求1所述的網絡小說內容近似度比對方法,其特徵在於,進一步包括:如果該待比對網絡小說與特徵比對庫中的網絡小說的近似度低於一閾值,則將該待比對網絡小說的特徵指紋增量加入到該特徵比對庫中。
7.根據權利要求2所述的網絡小說內容近似度比對方法,其特徵在於,進一步包括:如果該待比對網絡小說與特徵比對庫中的網絡小說的近似度低於一閾值,則將該待比對網絡小說的第一類型特徵向量加入到該特徵比對庫中。
8.根據權利要求3所述的網絡小說內容近似度比對方法,其特徵在於,進一步包括:如果該待比對網絡小說與特徵比對庫中的網絡小說的近似度低於一閾值,則將該待比對網絡小說的第二類型特徵向量加入到該特徵比對庫中。
9.根據權利要求4所述的網絡小說內容近似度比對方法,其特徵在於,所述預處理步驟還包括:去除待比 對網絡小說的非內容信息,包括格式信息和版本信息。
全文摘要
一種網絡小說內容近似度比對方法,包括預處理步驟對待比對網絡小說進行預處理,提取關鍵詞,將關鍵詞進行同義詞替換,以形成規範化網絡小說;特徵指紋提取步驟將待比對網絡小說中的拆分為多組臨近有序詞,並對每一組臨近有序詞進行哈希運算形成的哈希表作為特徵指紋;以及特徵指紋比對步驟將所述特徵指紋與特徵比對庫中存儲的現有網絡小說的特徵指紋相比較,以兩者的特徵指紋相同的數目或比率來確定待比對網絡小說與現有網絡小說的近似度。本發明的方法用於網絡小說的近似度比對,通過預處理避免了方法複雜度大引起的效率不高,又避免了針對性不強引起的漏查,且具有自學習能力,提高了查重準確度。
文檔編號G06F17/30GK103207864SQ201210011329
公開日2013年7月17日 申請日期2012年1月13日 優先權日2012年1月13日
發明者劉瑞虹, 姜波 申請人:北京中文在線數字出版股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀