一種電子作業抄襲檢測方法
2023-04-25 21:51:51 3
專利名稱:一種電子作業抄襲檢測方法
技術領域:
本發明涉及電子學習和自然語言處理領域,它對於作業集進行內容提取,通過常用詞詞頻、實詞語義相似度對於作業抄襲情況進行檢測。
背景技術:
隨著電子學習系統(Ε-Learning)的普及,大量的學生作業都是以電子作業的形式提交到電子學習系統中,並最終由老師給出評定。由於電子作業數量龐大,人工判斷任意兩個作業之間是否存在抄襲工作量非常大。對於電子作業的抄襲檢測,人工處理耗時耗力, 不能滿足批量檢測的要求。基於自然語言處理的文檔相似性計算方法使得電子作業抄襲檢測可以由計算機完成。但是傳統的作業檢測是根據計算文本向量的距離來完成的,誤差較大並且速度較慢。本發明結合常用詞詞頻和實詞語義相似度,提出一種新的度量文本相似性的方法,並用來解決電子作業的抄襲檢測問題。「的」、「一」、「是」、「 了,,和「我」是在漢語語料中出現最為頻繁的五個常用詞。它們在不同作者的文檔中,出現頻率是不一樣的,所以根據這個特徵可以檢測不同文檔是否出自同一作者。「知網」是一個中文語義辭典,利用「知網」中的概念層次關係,可以計算兩個實詞之間的語義距離。這裡的實詞包括名詞、動詞、形容詞和副詞。根據常用詞詞頻和實詞語義相似度兩方面的信息,可以綜合判斷起來用以判斷兩篇文檔之間是否存在抄襲現象。
發明內容
人工判斷電子作業是否存在抄襲費時費力,現有的基於文本向量的檢測方式速度慢,錯誤率高。為了解決現有技術問題的不足,本發明提出一種電子作業抄襲檢測的方法。為了達成所述目的,本發明提供一種電子作業抄襲檢測的方法,其技術方案包括如下步驟步驟Sl 對於待處理的作業集,分別進行文檔類型適配和文檔內容提取;步驟S2 對於步驟Sl所述的處理結果,作為純文本存入作業資料庫;步驟S3 對於步驟S2中的純文本格式的作業,分別進行中文分詞和詞性標註;步驟S4 對於步驟S3處理後的以詞表達的作業,分別進行常用詞詞頻計算和實詞語義相似度計算;步驟S5 對於步驟S4得到的兩種相似度進行加權平均,最終得到兩個作業的相似度並根據閾值判斷是否抄襲。本發明的有益效果對於電子學習系統中的批量電子作業進行抄襲檢測。對於電子學習系統中的批量作業,使用本技術可以避免人工檢測作業抄襲所帶來的枯燥繁瑣的勞動。本發明有效融合了常用詞詞頻和實詞語義相似度兩種文本相似性度量方法,並根據融合後的相似度判斷兩篇文檔間是否存在抄襲。
圖1是本發明的文檔類型適配和文檔內容提取流程圖。圖2是本發明的常用詞詞頻計算和實詞語義相似度計算流程圖。圖3是本發明的基於「知網」的實詞語義關係層次圖。
具體實施例方式下面結合附圖詳細說明本發明技術方案中所涉及的各個細節問題。應指出的是, 所描述的實施例僅旨在便於對本發明的理解,而對其不起任何限定作用。本發明提出了一種電子作業抄襲檢測的方法,具體的實施步驟如下所示1、作業類型適配和作業內容提取對於待處理的批量作業,首先進行作業類型適配和作業內容提取,如圖1所示。作業文本集中的作業被作業類型適配器處理,根據不同的作業文檔類型交由不同的文檔解析器處理。圖1所示的WORD文檔解析器、PDF文檔解析器、PPT文檔解析器和HTML文檔解析器的作用分別是用來提取WORD、PDF、PPT和HTML文檔類型裡邊的內容,並進一步轉化為純文本文件。2、中文分詞和詞性標註對於以純文本表示的作業文件,分別進行中文分詞和詞性標註。一篇作業文檔即表示為一些漢語詞彙的集合,這些詞彙都標註了各自的詞性。3、文本相似度度量如圖2所示,對於文檔A和B,利用常用詞詞頻和實詞語義相似度兩種方法的結合來判斷A和B是否相似。其中,常用詞詞頻和實詞語義相似度的計算方法在4和5中詳細介紹。4、常用詞詞頻計算這裡所說的常用詞指的是漢語語料中出現頻率最多的五個詞,它們分別是「的」、 「一」、「是」、「了」和「我」。不同學生的作業,這五個詞出現的頻率不一樣。定義文檔A
的」
中「的」字的出現頻率為,Ff 』』 = ^_。其中,|Α|表示文檔A中的字數,表示文檔A中 「的」字出現的次數。按同樣的方式定義文檔A中其他字的出現頻率為,:F;; Xj'" Λ7"
I ρ·『『的』』 一F"的』』 I
和[『賞文檔A和文檔B中「的」字的頻率相似度定義為,Sim=』』 =1- 1 A/C;B[『『J,』、, tA 。max(tA ,tB )
其中maxpT1」,!^^」)表示文檔A和文檔B中「的」字出現的頻率最大值。按照同樣的方式定義Sim^'、Sim;;"、Sim';TB"和Sim=』』。總的常用詞相似度定義為,
SimAiB =全Sim:』 + 全 Sim二」+全Sim^J" + 全 Sim^"+全 Sim^"。5、實詞語義相似度計算對於在作業純文本中得到的名詞、動詞、形容詞和副詞四種實詞,計算兩個相同詞性詞語之間的語義相似度。計算方法採取基於「知網」的層次距離度量方法,相似度定義在0和1之間,比如桌子和椅子之間的相似度0. 8,而風景和輪船的相似度為0. 1。基於「知網」的語義層次結構如圖3所示。這裡取文檔中出現頻率最大的五個名詞、五個動詞、五個形容詞和五個副詞來進行計算。定義文檔A中名詞和文檔B中名詞的語義相似度為
權利要求
1.一種電子作業抄襲檢測方法,其特徵在於,所述方法的步驟如下步驟Sl 對於待處理的作業集,分別進行文檔類型適配和文檔內容提取;步驟S2 對於步驟Sl所述的處理結果,作為純文本存入作業資料庫;步驟S3 對於步驟S2中的純文本格式的作業,分別進行中文分詞和詞性標註;步驟S4 對於步驟S3處理後的以詞表達的作業,分別進行常用詞詞頻計算和實詞語義相似度計算;步驟S5 對於步驟S4得到的兩種相似度進行加權平均,最終得到兩個作業的相似度並根據閾值判斷是否抄襲。
2.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於,所述文檔類型適配和文檔內容提取,其特徵在於能夠從各種文檔類型中提取出純文本。
3.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於,對於作業的處理包括中文分詞和詞性標註,最終作業是以各種詞性的詞來表達的。
4.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於,所述常用詞的詞頻計算是統計漢語文檔中最常出現的五個詞,即「的」、「一」、「是」、「了」和「我」,在作業中所出現的頻率;實詞語義相似度計算採取的是基於「知網」的語義度量方法,這裡的實詞包括名詞、 動詞、形容詞和副詞,通過查詢「知網」語義辭典中詞語之間的層次和隸屬關係來計算兩個詞語之間的語義距離。
5.根據權利要求1所述的電子作業抄襲檢測方法,其特徵在於通過融合常用詞的詞頻和實詞的語義相似度來得到最終的文檔相似度,並根據預定義的閾值來判斷兩篇文檔是否存在抄襲。
全文摘要
本發明涉及一種電子作業抄襲檢測方法,該方法首先對待處理的作業進行文檔類型適配、文檔內容提取,然後對於處理之後的純文本文件進行中文分詞和詞性標註,並根據常用詞詞頻和實詞語義相似度分別計算作業之間的相似程度,最後融合兩方面的相似度並根據閾值判斷兩篇文檔間是否存在抄襲。本發明的特點是,利用常用詞「的」、「一」、「是」、「了」和「我」的詞頻,以及實詞的語義相似度實現電子作業的抄襲檢測。本發明解決了電子學習系統中批量作業的抄襲檢測的問題;解決了學生通過同義替換和語句調整等作業抄襲方式的檢測問題。本發明可以用來對計算機輔助教學系統中各種文檔類型的作業進行抄襲檢測。
文檔編號G06F17/27GK102411564SQ20111023571
公開日2012年4月11日 申請日期2011年8月17日 優先權日2011年8月17日
發明者張師林 申請人:北方工業大學