新四季網

一種電子作業抄襲檢測方法

2023-04-25 21:51:51 3

專利名稱:一種電子作業抄襲檢測方法
技術領域:
本發明涉及電子學習和自然語言處理領域,它對於作業集進行內容提取,通過常用詞詞頻、實詞語義相似度對於作業抄襲情況進行檢測。
背景技術:
隨著電子學習系統(Ε-Learning)的普及,大量的學生作業都是以電子作業的形式提交到電子學習系統中,並最終由老師給出評定。由於電子作業數量龐大,人工判斷任意兩個作業之間是否存在抄襲工作量非常大。對於電子作業的抄襲檢測,人工處理耗時耗力, 不能滿足批量檢測的要求。基於自然語言處理的文檔相似性計算方法使得電子作業抄襲檢測可以由計算機完成。但是傳統的作業檢測是根據計算文本向量的距離來完成的,誤差較大並且速度較慢。本發明結合常用詞詞頻和實詞語義相似度,提出一種新的度量文本相似性的方法,並用來解決電子作業的抄襲檢測問題。「的」、「一」、「是」、「 了,,和「我」是在漢語語料中出現最為頻繁的五個常用詞。它們在不同作者的文檔中,出現頻率是不一樣的,所以根據這個特徵可以檢測不同文檔是否出自同一作者。「知網」是一個中文語義辭典,利用「知網」中的概念層次關係,可以計算兩個實詞之間的語義距離。這裡的實詞包括名詞、動詞、形容詞和副詞。根據常用詞詞頻和實詞語義相似度兩方面的信息,可以綜合判斷起來用以判斷兩篇文檔之間是否存在抄襲現象。

發明內容
人工判斷電子作業是否存在抄襲費時費力,現有的基於文本向量的檢測方式速度慢,錯誤率高。為了解決現有技術問題的不足,本發明提出一種電子作業抄襲檢測的方法。為了達成所述目的,本發明提供一種電子作業抄襲檢測的方法,其技術方案包括如下步驟步驟Sl 對於待處理的作業集,分別進行文檔類型適配和文檔內容提取;步驟S2 對於步驟Sl所述的處理結果,作為純文本存入作業資料庫;步驟S3 對於步驟S2中的純文本格式的作業,分別進行中文分詞和詞性標註;步驟S4 對於步驟S3處理後的以詞表達的作業,分別進行常用詞詞頻計算和實詞語義相似度計算;步驟S5 對於步驟S4得到的兩種相似度進行加權平均,最終得到兩個作業的相似度並根據閾值判斷是否抄襲。本發明的有益效果對於電子學習系統中的批量電子作業進行抄襲檢測。對於電子學習系統中的批量作業,使用本技術可以避免人工檢測作業抄襲所帶來的枯燥繁瑣的勞動。本發明有效融合了常用詞詞頻和實詞語義相似度兩種文本相似性度量方法,並根據融合後的相似度判斷兩篇文檔間是否存在抄襲。


圖1是本發明的文檔類型適配和文檔內容提取流程圖。圖2是本發明的常用詞詞頻計算和實詞語義相似度計算流程圖。圖3是本發明的基於「知網」的實詞語義關係層次圖。
具體實施例方式下面結合附圖詳細說明本發明技術方案中所涉及的各個細節問題。應指出的是, 所描述的實施例僅旨在便於對本發明的理解,而對其不起任何限定作用。本發明提出了一種電子作業抄襲檢測的方法,具體的實施步驟如下所示1、作業類型適配和作業內容提取對於待處理的批量作業,首先進行作業類型適配和作業內容提取,如圖1所示。作業文本集中的作業被作業類型適配器處理,根據不同的作業文檔類型交由不同的文檔解析器處理。圖1所示的WORD文檔解析器、PDF文檔解析器、PPT文檔解析器和HTML文檔解析器的作用分別是用來提取WORD、PDF、PPT和HTML文檔類型裡邊的內容,並進一步轉化為純文本文件。2、中文分詞和詞性標註對於以純文本表示的作業文件,分別進行中文分詞和詞性標註。一篇作業文檔即表示為一些漢語詞彙的集合,這些詞彙都標註了各自的詞性。3、文本相似度度量如圖2所示,對於文檔A和B,利用常用詞詞頻和實詞語義相似度兩種方法的結合來判斷A和B是否相似。其中,常用詞詞頻和實詞語義相似度的計算方法在4和5中詳細介紹。4、常用詞詞頻計算這裡所說的常用詞指的是漢語語料中出現頻率最多的五個詞,它們分別是「的」、 「一」、「是」、「了」和「我」。不同學生的作業,這五個詞出現的頻率不一樣。定義文檔A
的」
中「的」字的出現頻率為,Ff 』』 = ^_。其中,|Α|表示文檔A中的字數,表示文檔A中 「的」字出現的次數。按同樣的方式定義文檔A中其他字的出現頻率為,:F;; Xj'" Λ7"
I ρ·『『的』』 一F"的』』 I
和[『賞文檔A和文檔B中「的」字的頻率相似度定義為,Sim=』』 =1- 1 A/C;B[『『J,』、, tA 。max(tA ,tB )
其中maxpT1」,!^^」)表示文檔A和文檔B中「的」字出現的頻率最大值。按照同樣的方式定義Sim^'、Sim;;"、Sim';TB"和Sim=』』。總的常用詞相似度定義為,
SimAiB =全Sim:』 + 全 Sim二」+全Sim^J" + 全 Sim^"+全 Sim^"。5、實詞語義相似度計算對於在作業純文本中得到的名詞、動詞、形容詞和副詞四種實詞,計算兩個相同詞性詞語之間的語義相似度。計算方法採取基於「知網」的層次距離度量方法,相似度定義在0和1之間,比如桌子和椅子之間的相似度0. 8,而風景和輪船的相似度為0. 1。基於「知網」的語義層次結構如圖3所示。這裡取文檔中出現頻率最大的五個名詞、五個動詞、五個形容詞和五個副詞來進行計算。定義文檔A中名詞和文檔B中名詞的語義相似度為
權利要求
1.一種電子作業抄襲檢測方法,其特徵在於,所述方法的步驟如下步驟Sl 對於待處理的作業集,分別進行文檔類型適配和文檔內容提取;步驟S2 對於步驟Sl所述的處理結果,作為純文本存入作業資料庫;步驟S3 對於步驟S2中的純文本格式的作業,分別進行中文分詞和詞性標註;步驟S4 對於步驟S3處理後的以詞表達的作業,分別進行常用詞詞頻計算和實詞語義相似度計算;步驟S5 對於步驟S4得到的兩種相似度進行加權平均,最終得到兩個作業的相似度並根據閾值判斷是否抄襲。
2.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於,所述文檔類型適配和文檔內容提取,其特徵在於能夠從各種文檔類型中提取出純文本。
3.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於,對於作業的處理包括中文分詞和詞性標註,最終作業是以各種詞性的詞來表達的。
4.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於,所述常用詞的詞頻計算是統計漢語文檔中最常出現的五個詞,即「的」、「一」、「是」、「了」和「我」,在作業中所出現的頻率;實詞語義相似度計算採取的是基於「知網」的語義度量方法,這裡的實詞包括名詞、 動詞、形容詞和副詞,通過查詢「知網」語義辭典中詞語之間的層次和隸屬關係來計算兩個詞語之間的語義距離。
5.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於通過融合常用詞的詞頻和實詞的語義相似度來得到最終的文檔相似度,並根據預定義的閾值來判斷兩篇文檔是否存在抄襲。
全文摘要
本發明涉及一種電子作業抄襲檢測方法,該方法首先對待處理的作業進行文檔類型適配、文檔內容提取,然後對於處理之後的純文本文件進行中文分詞和詞性標註,並根據常用詞詞頻和實詞語義相似度分別計算作業之間的相似程度,最後融合兩方面的相似度並根據閾值判斷兩篇文檔間是否存在抄襲。本發明的特點是,利用常用詞「的」、「一」、「是」、「了」和「我」的詞頻,以及實詞的語義相似度實現電子作業的抄襲檢測。本發明解決了電子學習系統中批量作業的抄襲檢測的問題;解決了學生通過同義替換和語句調整等作業抄襲方式的檢測問題。本發明可以用來對計算機輔助教學系統中各種文檔類型的作業進行抄襲檢測。
文檔編號G06F17/27GK102411564SQ20111023571
公開日2012年4月11日 申請日期2011年8月17日 優先權日2011年8月17日
發明者張師林 申請人:北方工業大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀