比較文本文件的製作方法

2023-05-15 07:18:26 4

專利名稱：：比較文本文件的製作方法
技術領域：
：本發明涉及利用自動化處理比較文本文件(textbaseddocuments),以獲取對文件相似性的指示。本發明可應用於多個領域，這些領域包括但不限於文件搜索和自動文章評分(essaygrading)。
背景技術：
：筒而言之，網際網路搜尋引擎就指定詞掃描網頁(網頁是文本文件)，並返回結果，即與指定詞匹配的網頁。已知並無基於相似性概念而不使用指定詞來查找文件的網際網路搜尋引擎。自動文章評分更為複雜。本文之目的即在於根據文章內容與預期答案的比較而非根據詞的特定集合來對文章(文本文件)進行評分。
發明內容依據本發明的第一個方案，本文提供一種比較文本文件的方法，包括根據第一標準化表示建立第一文件的向量表示；根據第二標準化表示建立第二文件的向量表示；比較這些向量表示的共線程度，以生成第二文件相對第一文件的相似性的分數。的表示。每個詞用於在辭典中查找該詞的根本概念。較佳地，每個根本單詞被分配一個數字值。這樣，在一些實施例中的標準化處理生成文件的數字表示。每個標準化的根本概念形成所述向量表示的一維。每個根本概念被計數。每個標準化的根本概念的計數形成向量在向量表示的各維的長度。較佳地，這些向量表示的共線程度比較通過確定這些向量之間的夾角(theta)的餘弦來生成分數。通常，cos(theta)根據這些向量的點積和這些向量的長度來計算。在一些實施例中，文件中根本概念的數目被計數。在一個實施例中，每個非O計數的根本概念對各文件中概念的計數產生影響。特定根本概念可以從概念的計數中排除。較佳地，第二文件的概念的計數與第一文件的概念的計數進行比較，以對第二文件相對第一文件的相似性的分數產生影響。通常，非零計數的每個根本概念的影響為1。較佳地，所述比較為比率。在較佳實施例中，所述第一文件為標準答案文章，所述第二文件為待記分的文章，所述分數為所述第二文章的分數。依據本發明的第二個方面，提供一種比較文本文件的系統，包括對第一文件的文本的每個單詞進行詞';〔標準化以形成第一標準化表示的工具；根據第一標準化表示建立第一文件的向量表示的工具；的工具；根據第二標準化表示建立第二文件的向量表示的工具；對第一文件的文本進行詞彙標準化的工具；比較這些向量表示的共線程度以生成第二文件相對第一文件的相似性的分數的工具。依據本發明的第三個方面，提供一種比較文本文件的方法，包括將第一文件的單詞劃分為名詞短語和動詞從句；將第二文件的單詞劃分為名詞短語和動詞從句；比較第一文件的劃分與第二文件的劃分，以生成第二文件相對第一文件的相似性的分數。在一個實施例中，文件中的每個詞-波詞彙標準化為根本概念。較佳地，對文件劃分的比較通過確定以下比率來執行第二文件中一種或更多種類型的名詞短語成分的數目與第一文件中相應類型的名詞短語成分的數目之間的比率，以及第二文件中一種或更多種類型的動詞從句成分的數目與第一文件中相應類型的動詞從句的數目之間的比率，其中這些比率對分數有影響。較佳地，所述名詞短語成分的類型為名詞短語名詞、名詞短語形容詞、名詞短語前置詞和名詞短語連接詞。較佳地，所述動詞從句成分的類型為動詞從句動詞、動詞/人句副詞、動詞/人句助詞、動詞,人句前置詞和動詞從句連接詞。在一個較佳實施例中，所述第一文件為標準答案文章，所述第二文件為待記分的文章，所述分數為第二文章的分數。依據本發明的第四方面，提供一種比較文本文件的系統，包括將第一文件的單詞劃分為名詞短語和動詞從句的工具；將第二文件的單詞劃分為名詞短語和動詞從句的工具；比較第一文件的劃分與第二文件的劃分以生成第二文件相對第一文件的相似性的分數的工具。依據本發明的第五個方面，提供一種比較文本文件的方法，包括根據第一標準化表示確定第一文件中根本概念的數目；對第二文件的文本的每個單詞進行詞';〔標準化以形成第二標準化表示；根據第二標準化表示確定第二文件中根本概念的數目；比較第一文件中根本概念的數目與第二文件中根本概念的數目，以生成第二文件相對第一文件的相似性的分數。依據本發明的第六個方面，提供一種比較文本文件的系統，包括對第一文件的文本的每個單詞進行詞';〔標準化以形成第一標準化表示的工具；根據第一標準化表示確定第一文件中根本概念的數目的工具；對第二文件的文本的每個單詞進行詞彙標準化以形成第二標準化表示的工具；根據第二標準化表示確定第二文件中根本概念的數目的工具；比較第一文件中根本概念的數目與第二文件中根本概念的數目，以生成第二文件相對第一文件的相似性的分數的工具。依據本發明第七個方面，提供一種對基於文本的文章進行評分的方法，包括提供標準答案；提供多篇經手工評分的文章；提供多篇待評分的文章；提供對文章進行評分的方程，其中該方程具有多個度量，每一量度具有一個係數，該方程通過對每個由其各自的係數進行修正的度量進行累加來計算文章的分數，每個度量通過將各篇待評分的文章與標準文章進行比較來確定；根據經手工評分的文章確定係數；對每篇待評分的文章應用該方程，以生成每篇文章的分數。較佳地，根據經手工評分的文章確定係數通過線性回歸執行。較佳地，度量包括由以上描述的比較文本文件的方法生成的分數。依據本發明的第八個方面，提供一種對基於文本的文章文件進行評分的系統，包括根據多篇經手工評分的文章確定方程中的係數的工具，其中該方程用於對待評分的文章進行評分，該方程包括多個度量，每個度量具有這些係數中的一項係數，該方程生成文章的分數，該分數通過對每個由其各自的係數進行修正的度量進行累加來計算，用於通過將每篇待評分的文章與標準文章進行比較來確定每個度量的工具；用於根據所確定的係數和所確定的度量，對每篇待評分的文章應用該方程以生成每篇文章的分數的工具。依據本發明的第九個方面，提供一種提供關於文章評分的可視反饋的方法，包括顯示被評分的文章中每個根本概念的計數和在答案中預期的每個根本概念的計數。施例中，通過對被評分的文章中每個單詞進行詞彙標準化以生成被評分的文章中根本含義的表示，以及對被評分的文章中每個根本含義的出現進行計數，來確定每個根本概念的計數。在答案中根本概念的計數以與標準答案相同的方法進4亍計悽t。較佳地，所述顯示是圖示。更佳地，所述顯示是針對每個根本概念的方塊圖。在實施例中，該方法進一步包括在被評分的文章中選擇概念，並顯示被評分文章中屬於該概念的單詞。較佳地，答案中涉及其它概念的單詞也被顯示。較佳地，該顯示是通過高亮實現的。在另一實施例中，該方法進一步包括選擇期望文章中的概念，並顯示文章中屬於該概念的詞。較佳地，答案中涉及其它概念的詞也被顯示。較佳地，該顯示是通過高亮實現的。較佳地，該方法進一步包括顯示所選擇的根本概念的同義詞。依據本發明的第十個方面，提供一種提供關於文章評分的可視反饋的系統，包括顯示被評分的文章中每個根本概念的計數和答案中預期的每個根本概念的計數的工具。依據本發明的第十一個方面，提供一種數位化表示文件的方法，包括對文件的每個單詞進行詞彙標準化；將文件中被標準化的單詞劃分為多個部分，每個部分被指定為名詞短語或3皮指定為動詞,人句。較佳地，多個單詞被用來確定各部分是名詞短語還是動詞從句。在一個實施例中，每個部分的前三個單詞被用來確定該部分是名詞短語還是動詞從句。在一些實施例中，一部分中的每個單詞被分配給名詞短語表格的列向段或動詞從句表格的列向段。表格的每段分配給一個語法類型的單詞。如果單詞具有下一段的語法類型，則將這些單詞順序分配給合適表格中的段。如果下一單詞不屬於下一個段，則該段留為空白，段的順序分配繼續前進一個位置。如果如果下一單詞不屬於當前部分的表格類型，則表示當前部分結束。在一些實施例中，這些表格具有多行，以使當下一單詞不適合當前部分中當前單詞之後布置的其它行，但該單詞不表示當前部分結束時，將下一單詞布置在該表格的下一行。依據本發明的第十二個方面，提供一種數位化表示文件的系統，包括對文件的每個單詞進行詞彙標準化的工具；將文件的經標準化的單詞劃分為多個部分的工具，每個部分被指定為名詞短語或淨皮指定為動詞^人句。依據本發明的第十三個方面，提供一種電腦程式，配置為控制計算機執行以上所限定的方法中的任意一種。依據本發明的第十四個方面，提供一種電腦程式，配置為控制計算機作為以上所限定的系統工作。依據本發明的第十五個方面，提供一種計算機可讀介質，包括以上所限定的電腦程式。為更好地理解本發明，現對照附圖僅以示例方式詳細描述優選實施例，其中圖1為依據本發明實施例用於比較文本文件的設備的優選實施例的示意圖；圖2為依據本發明實施例比較文本文件的方法的流程圖，其中所述文本文件是標準答案文章和用於評分的文章；圖3為3個文件的向量表示法的示圖；圖4為由本發明實施例的電腦程式生成的示窗的屏幕截圖，在該程序中依據本發明實施例的方法對文章進行評分；圖5為由該電腦程式生成的示窗的屏幕截圖，在該程序中被評分的文章的概念與標準答案的概念進行比較；圖6為示出同義詞列表的示窗；圖7為本發明某些實施例的一系列流程圖；以及圖8為本發明實施例的流程圖。具體實施方式參見圖1，其中的系統IO用於比較文本文件，其通常採用具有處理器和安裝有合適軟體的存儲器的計算機形式，該軟體控制計算機作為所述比較文本文件的系統來工作。系統10包括輸入端12,用於從用戶接收輸入，並用於接收包含至少一個詞的電子文本文件；處理器14，用於執行比較文本文件的計算；存儲工具16,例如硬碟驅動器或存儲器，用於暫時性存儲用於比較的文本文件和用於控制處理器14的電腦程式；以及輸出端18，例如顯示器，其用於提供比較的結果。系統IO依據圖2所示的方法工作。據進程100所載，首先準備一組答案。在102,設置一篇概述待評估文章的主題的文章。在104，寫入針對該文章主題的答案。這些答案應為電子文本文件或應轉換為電子文本文件。在106,從這些答案中分離出一個用於由一位以上記分員進行手工評分的樣本。較佳地，該樣本至少有IO個答案。業已發現如下的經驗法則，即該樣本中的文件數目應約為預測算子數目的5倍。就下述方程而言，該樣本中應至少有50個文件，較佳地應有100個文件。通常，根據文章主題102設計出記分關鍵112。一位記分員、或者在較佳情況下更多位記分員對該樣本進行手工(人工)評分。在由一位以上的人對同一篇文章進行評分這種有利情況下，產生該被手工評分的樣本的平均分數。答案104中的剩餘答案形成用於自動評分的答案108。需要標準答案110。可以在114根據記分關鍵編寫標準答案，也可以將這些答案中用於手工評分的樣本106的最佳答案116用作標準答案。每個基於文本的答案，即標準答案110、經手工評分的答案樣本106以及用於自動評分的剩餘答案108，都通過輸入端12輸入202到系統10。然後是自動文章評分技術200。標準答案110、已經手工評分的答案樣本106以及用於自動評分的剩餘答案108的每個輸入202，分別被處理為後續進一步描述的必需結構。這些步驟分別是204、206和208。然後，來自204經處理的標準答案在210與來自206的每個經處理的手工評分答案進4亍比較，以便生成一套度量，以下更詳細地定義度量。度量本質上是使用多種技術，將每個手工評分的答案與標準答案進行比較的一個或多個值。然後，該度量用於找出下面進一步描述的記分方程的係數。針對每個手工評分的答案的每個度量與手工評分過程中提供的分數進行比較212,並使用模型建立技術，以便找出根據每個度量產生的手工評分的分數最好的係數。通常這將依據線性回歸技術。儘管應該理解其它建模技術也可以使用。來自208的每個需自動評分的文章答案與來自204的標準答案進行比較214，以便生成每個答案的度量。然後，在216將212確定的係數應用於每個文章的度量，以便生成每個文章的分數。然後在218輸出一系列分數。然後文章的答案也可以使用下面進一步描述的為文章撰寫者提供反饋的顯示技術來觀看。用於記分的方程以下方程用於計算文章分數分數=C*CosTheta+D*VarRatio+其它因素其它因素這一項的目的在於綜合評價該文章，而非評價文章對主題的答覆，其將例如文體、可讀性、拼寫和語法錯誤這樣的方面納入考慮之列。CosTheta和VarRatio評估該文章對問題的答覆程度。C和D是權重變量。以下是計算文章分數的更詳細的方程分數=截距+A*FleschReadingEase+B*FleschKincaidGradeLevel+C*CosTheta+D*VarRatio+E*RatioNPNouns+F*RatioNPAjectives+G*RatioNPPrepositions+H*RatioNPConjunctions+I*RatioVPVerbs+PRatioVPAdverbs+K*RatioVPAuxilliaries+L*RatioVPPrepositions+M*RatioVPConjunctions+N*NoParagraphs+0*NoPhrases+P、Words+Q*NoSentencesPerParagraph+R*NoWordsPerSentence+S*NoCharactersPerWord+T*NoSpellingErrors+U*NoGrammaticalErrors其中，A-U是根據文章訓練集中的相應變量計算出的回歸係數。在大多數時候，這些係數中的多個係數為0。截距是針對回歸方程計算的截距值(可以認為是與Y軸的交叉點的值)；FleschReadingEase是由MicrosoftWord為學生文章計算的Flesch易讀性(Fleschreadingease)(易讀性)；FleschKincaidGradeLevel是由MicrosoftWord為學生文章計算的Flesch-Kincaid閱讀級另'J(Flesch-Kincaidreadinglevel)(級別);CosTheta根據下面進一步的解釋計算；VarRatio根據下面進一步的解釋計算；RatioNPNouns是學生文章相比標準文章在名詞短語中的名詞上的比率；RatioNPAjectives是學生文章相比標準文章在名詞短語中的形容詞上的比率；RatioNPPrepositions是學生文章相比標準文章在名詞短語中的前置詞上的比率；RatioNPConjunctions是學生文章相比標準文章在名詞短語中的連接詞上的比率；RatioVPVerbs是學生文章相比標準文章在動詞從句中的動詞上的比率；RatioVPAdverbs是學生文章相比標準文章在動詞從句中的副詞上的比率；RatioVPAuxiliaries是學生文章相比標準文章在動詞從句中的助動詞上的比率；RatioVPPrepositions是學生文章相比標準文章在動詞從句中的前置詞上的比率；RatioVPConjunctions是學生文章相比標準文章在動詞從句中連接詞上的比率；NoParagraphs是學生文章的段落數目；NoPhrases是學生文章的名詞短語和動詞從句的總數目；NoWords是學生文章中的單詞數；NoSentencesPerParagraph是學生文章的所有段落的平均句數；NoWordsPerSentence是學生文章的所有句子的平均字數；NoCharactersPerWord是學生文章的所有單詞的平均字符數；NoSpellingErrors是學生文章中由MicrosoftWord計算的拼寫錯誤的總數；以及NoGrammaticalErrors是學生文章中由MicrosoftWord計算的語法錯誤的數目。以下是可用於計算文章分數的替代性方程分數=A*FleschReadingEase+B*FleschKincaidGradeLevel+C*CosTheta+D*VarRatio+E*yoSpellingErrors+F*yoGrammaticalErrors+G*ModelLength+H*StudentLength+I*StudentDotProduct+J*NoStudemConcepts+K*NoModelConcepts+L*NoSentences+M*NoWords+N^NonConceptualisedWordSRatio+0*RatioNPNouns+P*RatioNPAjectives+Q*RatioNPPrepositions+R*RatioNPConjunctions+RatioVPVerbs+T*RatioVPAdverbs+IPRatioVPAuxilliaries+V*RatioVPPrepositions+W*RatioVPConjunctions其中，A_W是根據文章訓練集中的相應變量計算出的回歸係數。大多數時候，這些係數中的多個係數為0。FleschReadingEase是由MicrosoftWord為學生文章計算的Flesch易讀性；FleschKincaidGradeLevel是由MicrosoftWord為學生文章計算的Flesch-Kincaid難度級別；CosTheta是根據下面進一步的解釋計算的；VarRatio是根據下面進一步的解釋計算的；%SpellingErrors是由MicrosoftWord計算的學生文章中的拼寫錯誤的數目，其以學生文章中所有單詞的百分比的形式表達；%GrammaticalErrors是由MicrosoftWord計算的學生文章中的語法錯誤的數目，其以學生文章中所有句子的百分比的形式表達；ModelLength是按照下面的進一步解釋得到的標準答案向量的向量長度；StudentLength是按照下面的進一步解釋得到的標準答案向量的向量長度；StudentDotProduct是按照下面的進一步解釋得到的學生向量和標準向量的向量點積；NoStudentConcepts是代替在學生文章中出現的單詞的概念的數目；NoModelConcepts是在標準文章中出現的單詞的概念的數目；NoSentences是學生文章中的句子數目；NoWords是學生文章中的單詞數目；NonConceptualisedWordSRatio是學生文章中在辭典中查找不到的單詞的數目，其以學生文章中總單詞數目的比率形式表達；RatioNPNouns是學生文章相比標準文章在名詞短語中的名詞上的比率；RatioNPAjectives是學生文章相比標準文章在名詞短語中的形容詞上的比率；RatioNPPrepositions是學生文章相比標準文章在名詞短語中的前置詞上的比率；RatioNPConjunctions是學生文章相比標準文章在名詞短語中的連接詞上的比率；RatioVPVerbs是學生文章相比標準文章在動詞從句中的動詞上的比率；RatioVPAdverbs是學生文章相比標準文章在動詞從句中的副詞上的比率；RatioVPAuxilliaries是學生文章相比標準文章在動詞從句中的助動詞上的比率；RatioVPPrepositions是學生文章相比標準文章在動詞從句中前置詞上的比率；以及RatioVPConjunctions是學生文章相比標準文章在動詞從句中連接詞上的比率。其中，接近零的係數可以轉化為零，以簡化該方程。係數為零的方程項(即該係數和應用該係數的變量)可以從該方程中移除。為了將這些文章與標準文章進行比較，需要將它們轉換為適於比較的結構。轉換這些文章的處理如下使用辭典查找每個單詞的根本概念，將每篇文章中的每個單詞進行詞彙標準化；以及建立該文章的結構的概念模型。概念模型為了建立概念模型，通過後面描述為"分塊(chunking)，，的技術，將該文章分割為名詞短語和動詞從句，以使句子結構以主語和謂詞來表示，稱為名詞短語(NP)和動詞短語(VP)。通常，NP指定討論的主語，VP則指定向主語施加或由主語執行的動作。然而，較之NP來說，VP處理的複雜程度更為有名，這是因為VP通常可能包括很多成群的動詞從句(VC)和一個NP。以識別VC代替識別複雜的VP容易的多。所使用的技術的基礎是，利用連續的結構化段來表示組成NP和VC的單詞的含義，結構化段包含表示該詞根本含義的辭典索引號在該段中的數字值。文件中句子含義的數字摘要認為是這樣建立起來的。下面進一步討論NP和VC段的確切結構，但對解釋概念和給出實際的例子進行如下考慮。通常的句子包括如下交替的NP和VC。典型的第一NP段單詞和數字內容可能是DETADJADJNThesmallblackdog10014397678DET是限定詞，ADJ是形容詞，N是名詞。典型的第一VC段單詞和數字內容可能是VADVADVwalkedslowlydown3498767V是動詞。典型的結束性NP段單詞和數字內容可能是DETNthestreet100234在這些例子中的數字是相應單詞的辭典索引號。這裡，數字是編造的，僅是為了解釋。通常句子是由成組的交替NP和VC構成的，但不一定是以那樣的順序，所以句子摘要可以由包含數字辭典索引的一組NP段和VC段表示。然後，文件摘要可以由這些組的集合組成。注意句子不一定必須開始於NP，也可以開始於VP。NP結構瑪撒.可勒(MarthaKolln)(可勒，M.(1994)理解計算機語法(UnderstandingEnglishGrammar),麥克米蘭(MacMillan)，糹醜約(NewYork))的443頁陳述了在轉換語法下定義NP的規則，如下(1)NP=(DET)+(ADJ)+N+(PREPPHR)+(S)以及在429頁的PrepPhr如下PREPPHR=PREP+NPPREPPHR是前置短語，S為主語。當考慮給NP提供的段時，以上的(1)可寫為(2)NP=DETADJNPREPNPSNP的基本組成為(3)NP=DETADJN以及一些附加的結構。已經在實踐中發現(4)NP=DETADJADJADJN是較好的結構。如果我們將該結構作為NP中的基本核心結構，可以通過由PREP連接多個核心結構的出現而按照該核心結構來建立完整的NP結構。在實踐中已發現，我們還應該允許通過CONJ(連接詞)來連接。所以最後，我們總結基本組成應該是(5)NP=CONJPREP:DETADJADJADJN其中，冒號之前的兩段是連接段，隨後的是內容段。由於NP段模板應該處理在普通英語文本中遇到的許多實際的NP，因此實踐表明我們應該允許這種基本組成出現大約40次。實際上，程序的當前執行允許這種基本組成無限制地出現。表1示出這種陣列的前IO行。tableseeoriginaldocumentpage24表1名詞短語語義結構在句子中的第一核心組成通常具有設置為空白的CONJ段和PREP段(實際上數目為0)。任意空段也設置為0。vc結構Kolln(1994)在428頁陳述了在轉換語法下定義VP的規則，如下(6)VP=AUX+(COMP)+(ADV)AUX是助動詞。COMP解釋為NP或ADJ,所以通過從VP中移除這個，我們得到VC如下(7)VC=AUX+V+ADV在實踐中我們發現，如果通過增加額外的AUX和ADV修改該VC定義，我們獲得更有用的結構為(8)VC=AUXAUXADVADVVAUXAUXADVADVVC經常會引入CONJ,在實踐中發現，我們還應該在VC中允許PREP,所以完整的VC定義應該是200680025417.7說明書第16/28頁我們應該允許這種基本VC組成出現40次，以便處理在實際中遇到的VC。實際上，程序的當前執行允許這種基本組成無限制地出現。表2示出這種陣列的前10行。formulaseeoriginaldocumentpage25表2動詞從句語義結構如果句子開始於VC,那麼將CONJ段設置為空白(實際上數字為O)。任意空段也設置為0。表3示出句子組成的位置，以便確定3個位置的短語類型，表4示出更多位置的短語類型。在這些表中P是PREP。tableseeoriginaldocumentpage26當在句子中剩餘至少一個單詞時，處理繼續到循環階段318。308中，在模式表(表3)中查找三個位置中各個位置處的三個單詞，以便確定是NP或VC。如果沒有識別出模式，則產生了錯誤，分析移動到下一個句子，或移動直到識別另一個NP或VC為止。確定當前的短語類型是否不同於分配給該句子的當前類型。如果這是該句子的開始，那麼答案一定是否，如果短語類型改變了，則在312表明到達了當前短語的結尾和新的短語的開始。單詞的索引如以下關於316所進一步描述的獲得。如果這是該句子的第一個短語，或在380所確定的類型依然相同，則在314，將當前的單詞增加到當前的短語類型中。然後，在316,處理前進到將第二個單詞移動到第一個單詞的位置，第三個單詞變成第二個單詞的位置，如果在句子中還有單詞剩餘的話，將新單詞讀入到第三個單詞的位置。然後如果至少有一個單詞剩餘，則處理返回306。如果沒有任何詞剩餘，則處理結束。以下示出針對以下文本在實踐中實現這些結構的例子Thisessaywilldiscwhyit'sagoodideafortheGovernmenttorai幼schoofleavingageto17.ItwillalsostatewhymostpeopleinAustraliaagreewiththeGovernmenton衡isparticulartopic.paragraphiSentence1Phrase1(No聰)Row1j曰lesssayjJ5082J2381Phras.e2(Vei:b>■Row1jwi工11discussjwhy|JAUX|VJADVJJ2034J238J39jPhxase3〈No皿)Row1J25Row2j逸jRow31goodIidea|Ini■|317J317jRow41￡orjtheIC3ove微mentjPjE)ETjJ705i507i63Phrase4(Verb》Row1ItojraisejIP1Vjj"71(30'/jPhrase5(Noun〉Row1schoolj1.1j307jimageseeoriginaldocumentpage29imageseeoriginaldocumentpage30這種分塊方法生成文件的計算有效數字表示。確定度量已經將每個文章處理為所要求的結構後，使用下面的方法確定各自的度量。向量表示為了生成下面的度量，建立每個文章的向量表示CosTheta;VarRatio;ModelLength;StudentLength;以及StudentDotProduct。每個文章的向量表示建立如下。將辭典中每個可能的根本含義分配給軸的超空間集合中的一維。計數由對每個根本含義有貢獻的每個詞來組成，該計數稱為向量在形成在超空間中的向量各維的長度。這樣，每個詞彙標準化為根本含義的詞的計數用於向量表示。在沙爾騰(Salton),G.(1968)的自動信息組織和檢索(AutomaticInformationOrganizationandRetrieval)，McGraw-Hill,紐約(NewYork)中，對電子辭典建立以及建立用於自動信息檢索的文件內容的向量表示，有全面的討i侖。然而，下面的是例子是解釋性的。考慮以下來自3個獨立文件的連續句子的句子片段的開始文件編號文件文本(1)Thelittleboy...Asmallmale(2)Alazyboy...Afunnygirl(3)Thelargeboy...Someminorday假設辭典中存在以下根單詞(概念編號)和單詞概念編號單逸1.the,a2.little,small,minor3.boy，male4.large5.funny6.girl了.soms8.day9.lazy以上文件片段關於前3個概念編號(1-3)的三維向量表示可以通過對那個概念編號中的單詞在文件片段中出現的次數進行計數來建立。這些向量為文件編號關於前3個概念的向量解釋(1)[2，2，2][the,a;little,small;boy,male](2)[2,0，1][A,a;;boy](3)[1，1，1][The;minor;boy]圖3中的圖形像化地示出這些三維向量。通常，這些想法擴展到Macquarie辭典中的大約812個概念以及文件中的所有單詞。這意味著向量建立為大約812維，且向量理論以嚴格相同的方法繼續這些維度一當然很難在該超空間中描繪該向量。根據文章的這種向量表示，ModelLength和StudentLength變量可通過以常規方法確定向量的長度來計算，即Length=SquareRoot(x*x+y*y+...+z*z),其中向量是向量(x，y，...z)。同樣，StudentDotProduct變量可通過以常規方法計算確定標準文章向量和學生文章向量之間的向量點積來計算，即DotProduct=(xl*x2+yl*y2+...+zl*z2),其中向量是向量l(xl，yl,…，zl)及向量2(x2,y2，…，z2)。接下來，變量CosTheta可以常規方法來計算，即Cos(theta)=DotProduct(vl，v2)/(length(vl)"ength(v2))。如果我們假設文件1為標準答案，那麼可以通過查看它們相應向量的接近程度來了解文件2和文件3在語義上接近標準答案的程度。向量之間的角度隨著向量之間的"接近"程度而改變。小角度表示文件包含相似的內容，而大角度表示它們不具有很多相同的內容。角Thetal是標準答案向量與文件2的向量之間的角度，角Theta2為標準答案向量與文件3的向量之間的角度。Thetal和Theta2的餘弦可用作這種接近程度的度量。如果文件2和文件3與標準答案相似，則它們的向量會與標準答案向量相似，並與標準答案向量位於一條直線上，且具有餘弦值l。如果是另一方面，即它們完全不同，則垂直於標準答案向量，它們的餘弦為0。通常在實踐中，文件的餘弦位於該上限和下限之間。使用在記分算法中的變量CosTheta是為記分的文件計算出的這種餘弦。變量VarRatio是根據在學生答案中非0維度的數目除以在標準答案中非0維度的數目確定的。例如，出現在上述標準答案(文件1)中的概念數目為3。這可以根據在數字向量表示中的非零計數的數目來確定。出現在上述文件2中的概念的數目為2—第二個向量索引為0。為了為文件2計算VarRatio，我們用標準答案中的非零概念計數除文件2的非零概念計數，即VarRatio=2/3=0.67。文件3相應的VarRatio為3/3=1.00。這個簡單的變量提供了文章分數的很強的預測算子，通常會作為一個要素出現在記分算法中。為了生成概念模型的以下度量，使用了NoStudentConcepts;NoModelConcepts;NonConceptualisedWordSRatio;RatioNPNouns;RatioNPAjectives;RatioNPPrepositions;RatioNPConjunctions;RatioVPVerbs;RatioVPAdverbs;RatioVPAuxilliaries;RatioVPPrepositions;和RatioVPConjunctions。這些可以根據以上所描述的確定。記分和度量的計算示於圖4中。一旦對文章進行了評分，可以給出文章的哪裡覆蓋了正確概念，哪裡沒有覆蓋正確概念的反饋。如圖5所示，被評分的文章中每個根本概念的計數以及答案中預期的每個根本概念的計數會通過每個概念的方塊高度來顯示。進一步地可以在文章中選擇一個單詞，且在文章中的相似概念可以通過高亮它們進行顯示。而且，通過選擇在標準答案文章中的概念，且通過高亮來顯示評分的文章中的相似概念。還可以顯示所選擇根本概念的同義字，如圖6所示。示例根據大約100份人類評分的訓練文章和理想或標準答案開發了回歸方程式。建立了以上所描述的文件向量。根據標準答案與訓練文章的內容和向量之間的關係，計算了多個變量的值。一旦執行了訓練，並建立了評分算法，就對每個未評分的文章進行處理，以獲取獨立變量的值，然後使用回歸方程式。通常CosTheta和VarRatio在評分方程式中非常重要。在試驗中，10年級的中學生在紙上手寫了關於主題"TheSchoolLeavingAge"的文章。然後，三個受訓練的人類評分者根據評分指示對這些文章進行評分。然後，將總數目為390的文章轉錄為MicrosoftWord文件格式。選擇具有最高平均人類分數的文章作為標準答案。最高平均人類分數具有可能的54之內的分數48.5，或90%。在該系統的一個測試中，100份文章用於建立評分算法。當以標識符升序排列時，在試驗中使用前100份文章建立評分算法。所確定的預測方程為Grade=-22.35+11.00*CosTheta+15.70*VarRatio+7.64*CharactersPerWord+0.20*NumberofNPAdjectives其產生54之內的分數。在該例子中預測方程只需要4個獨立變量。然後使用該方程對剩餘的290份文章進行評分。這些290份文章的人類平均分為30.34，而由計算機自動評分給出的平均分為29.45，差值為0.89。人類和自動評分之間的相關性為0.79。兩者之間的平均絕對差值為3.90，表明打出54(最大可能的人類評分)之內的分時，平均錯誤率為7.23%。三個人類自身之間的相關性為0.81、0.78和0.81。對人類評分者的分數進行平均的優點由以下事實顯示出來自動評分分數與三個人類打的平均分之間的相關性最高，為0.79，高於各個相關性0.67、0.75和0.75。重要預測算子的係數和截距可以是正的或負的。例如可以預料，CosTheta預測算子的係數為正，SpellingError的係數為負。然而，由於數據中的數學無法預測性，這不會經常發生。也可以使用預測值度量的各種變換。它們可能包括平方根和對數。這些是在線性回歸中經常使用的典型變換。發現在文章中單詞的數目的四次方是有效的預測值。在文章試驗的一批中計算的方程的其它例子包括以下formulaseeoriginaldocumentpage34對於54之內的分數。formulaseeoriginaldocumentpage34對於54之內的分數。Gr線de--19,59+7.1.6*GosTlieta+12.64承VarR敏io+歸'7率NwnberofNPAdjectives^l*g2*Level對於30之內的分數。應該注意，4艮容易以比例來確定分數，例如，表述為百分數。分數在54之內是作為一個例子，該分數可以乘以100和除以54得到百分率分數。對於大約在30到50之內的分數，CosTheta和VarRatio的係數通常在大約10到20之間。為了獲取百分率分數，可以使用大約20到40的係數。然而，可能設計一般方程，例如score-20+40*CosTIieta+40輝arRatio-10*SpellingErrors-■10*GrammaticalErrors通過使用回歸分析可以獲取更好的結果，以便確定係數，而不是作為一般值而固定它們。詳細的一套流程圖包含在圖7中。一套解釋該流程圖的偽代碼列於附錄1中。技術人員應該理解可以在未超出基本發明概念的情況下，對本發明進行各種修改和改變。本發明可以使用在除文章評分之外的應用中，例如在文件搜索領域中，其中"標準答案"文件是包含搜索條件的文件。其它應用和在其它應用中使本發明可以使用在除文章評分之外的應用中，例如在機器文件翻譯領域中。這類修改和變化旨在落在本發明的範圍之內，其待確定的本質形成了前面的描述。附錄1自動文章評分系統的偽代碼-對圖3的流程圖的解釋l,OMark!TStructureDocument(ModelAnswer)(2.0)StructureDocument(StudentAnswer)(2.0)ComputeRatiosBetweenModelAnswerandStudentAnswer(10,2)ComputeStudentMark2.0StructureDocument(document)Chunkdocumentintoparagraphs(2.1)Foreachparagraphinthedocument(3.0)oSetallconceptshitcountstozero(9,2)oChunkparagraphintosentences(3.1)oForeachsentenceintheparagraph(4.0)■Wordlist=Chunksentenceintowords(4,1.1)■Getalistofnon-empty:fromwordlist(4,1.2)國Tageachnon-emptywordswithitsPartofSpeech(POS)[third-party]■ChunkSentenceIntoPhrases(4，1.4)oComputetotalhitcountsforeachconceptbyaddinguptheconcept'shitcountandtheirrelatedconcepts'hitcounts(9,3，8.1)oContextualiseeachword(3.2，4.2，5.2，6.2,7.2)Computegrammaticalstatistics(10,1)4.1.4Chunksentenceintophrases(wordlist)Currentphrasetype=UntypedGetthefirstthreewordsfromwordlistintowordl，word2andword3WhilewordlnulloNewphrasetype=Lookupphrasetype(wordl，sPOS,word2，sPOS，word2，sPOS)intable1，fromtoptobottom(5.3)oIfnewphrasetypecurrentphrasetype■Currentphrase=newphraseoAddwordltocurrentphrase(5,1)oWordl=woi'd2，word2=word3，word3=nextwordfromwordlist5.1AddWordintoaphrase(word)Successful=Addwordintocurrentphraserow(6,1)IfnotsuccessfuloCurrentphraserow=newphraserowoNewphraserow'scurrentslot=0oAddwordintocurrentphraserow(6.1)6.1AddWordintoaphraserow(word)IfrowtypeINVALIDandword'sPOSNO—POSoSearchfornextPOSslotfromcurrentslot(inclusive)onwards(table2)oIfendoftherow攀ReturnfalseoElseSlotwordCurrentslot=currentslot+1Setword，sconcept(7,1)ReturntrueoSlotwordoIfword'sPOSoNO—POS*Setword'sconcept口."oReturntrue7.1Setword'sconceptGetconceptlist(word,POS)(9.4)Ifconceptlist^nulloStemmedword=StemwordusingPorterStemmer[third-party]oGetconceptlist(stemmedword,fOS)(9,4)9.4Getconceptlist(word，POS)Conceptlist=Lookupconceptsrelatedtoword&POSinthedatabasesystemIfconceptlistnulloForeachconceptnumber<=MAX—CONCEPT—NUMBERConcept[number]，shitcount++*Returnconceptlist7.2Setword'smostrelevantconceptIfconceptlistnulloIvlostrelevantconcept=oneoftheconceptswiththehighesttotalhitcountElse權利要求1、一種比較文本文件的方法，包括對第一文件的文本的每個單詞進行詞彙標準化以形成第一標準化表示；根據第一標準化表示建立第一文件的向量表示；對第二文件的文本的每個單詞進行詞彙標準化以形成第二標準化表示；根據第二標準化表示建立第二文件的向量表示；比較這些向量表示的共線程度，以生成第二文件相對第一文件的相似性的分數。2、如權利要求1所述的方法，其中詞彙標準化將各文件中的每個單詞轉換為辭典中定義的根本概念的表示。3、如權利要求2所述的方法，其中每個單詞用於在辭典中查找該單詞的根本概念。4、如權利要求2或3所述的方法，其中每個根本單詞被分配一個數字值。5、如權利要求1至4中任一項所述的方法，其中標準化處理產生文件的數字表示。6、如權利要求2至4中任一項所述的方法，其中每個標準化的根本概念形成向量表示的一維。7、如權利要求6所述的方法，其中每個標準化的根本概念出現的次數被計數。8、如權利要求7所述的方法，其中每個標準化的根本概念的計數形成向量在向量表示的各維的長度。9、如權利要求1至8中任一項所述的方法，其中這些向量表示的共線程度比較通過確定這些向量之間的夾角(theta)的餘弦來生成分數。10、如權利要求9所述的方法，其中cos(theta)根據這些向量的點積和這些向量的長度來計算。11、如權利要求2至4及6至8所述的方法，其中每個文件中根本概念的數目被計數。-12、如權利要求11所述的方法，其中第二文件的概念的計數與第一文件的概念的計數進行比較，以對第二文件相對第一文件的相似性的分數產生影響。13、如權利要求12所述的方法，其中非零計數的每個根本概念的影響為1。14、如權利要求12或13所述的方法，其中所述比較為比率。15、如權利要求1至14中任一項所述的方法，其中所述第一文件為標準答案文章，所述第二文件為待被評分的文章，所述分數為第二文章的分數。16、如權利要求1至15中任一項所述的方法，進一步包括將第一文件的單詞劃分為名詞短語和動詞從句；將第二文件的單詞劃分為名詞短語和動詞從句；比較第一文件的劃分與第二文件的劃分，以對第二文件相對第一文件的相似性的分數產生影響。17、一種比較文本文件的系統，包括的工具；根據第一標準化表示建立第一文件的向量表示的工具；的工具；根據第二標準化表示建立第二文件的向量表示的工具；對第一文件的文本進行詞彙標準化的工具；比較這些向量表示的共線程度以生成第二文件相對第一文件的相似性的分數的工具。18、如權利要求17所述的系統，進一步包括一工具，該工具查找辭典以根據各文件中的每個單詞查出根本概念，並將所述根本概念提供給對各個文件中的每個單詞進行詞彙標準化的各個工具，其中所述各個工具將每個單詞轉換為相應根本概念的表示。19、如權利要求18所述的系統，其中用於建立向量表示的各個工具根據每個標準化的根本概念形成向量表示的一維。20、如權利要求19所述的系統，其中用於建立向量表示的各個工具對每個標準化的根本概念的出現次數進行計數，所述計數形成向量在向量表示的各個維的長度。21、如權利要求17至20中任一項所述的系統，其中用於比較這些向量表示的共線程度的工具通過確定這些向量之間的夾角(theta)的餘弦來生成分數。22、如權利要求21所述的系統，其中用於比較這些向量表示的共線程度的工具被配置為根據這些向量的點積和這些向量的長度來計算cos(theta)。23、如權利要求20所述的系統，其中用於建立向量表示的各個工具對各個文件中非零根本概念的數目進行計數。24、如權利要求23所述的系統，其中用於比較向量表示的共線程度的工具對第二文件的概念的計數和第一文件的概念的計數進行比較，以對第二文件相對第一文件的相似性的分數產生影響。25、一種比較文本文件的方法，包括將第一文件的單詞劃分為名詞短語和動詞從句；將第二文件的單詞劃分為名詞短語和動詞從句；比較第一文件的劃分與第二文件的劃分，以生成第二文件相對第一文件的相似性的分數。26、如權利要求25所述的方法，其中文件中的每個詞被詞彙標準化為根本概念。27、如權利要求25或26所述的方法，其中對文件劃分的比較通過確定以下比率來執行第二文件中一種或更多種類型的名詞短語成分的數目與第一文件中相應類型的名詞短語成分的數目之間的比率，以及第二文件中一種或更多種類型的動詞從句成分的數目與第一文件中相應類型的動詞從句的數目之間的比率，其中這些比率對分數有影響。28、如權利要求27所述的方法，其中所述名詞短語成分的類型為名詞短語名詞、名詞短語形容詞、名詞短語前置詞和名詞短語連接詞。29、如權利要求27或28所述的方法，其中所述從句成分的類型為動詞乂人句動詞、動詞乂人句副詞、動詞/人句助詞、動詞/人句前置詞和動詞/人句連接詞。30、如權利要求24所述的方法，其中所述第一文件為標準答案文章，所述第二文件為待評分的文章，所述分數為第二文章的分數。31、一種比較文本文件的系統，包括將第一文件的單詞劃分為名詞短語和動詞從句的工具；將第二文件的單詞劃分為名詞短語和動詞從句的工具；比較第一文件的劃分與第二文件的劃分以生成第二文件相對第一文件的相似性的分數的工具。32、一種比較文本文件的方法，包括對第一文件的文本的每個單詞進行詞彙標準化以形成第一標準化表示；根據第一標準化表示確定第一文件中根本概念的數目；對第二文件的文本的每個單詞進行詞彙標準化以形成第二標準化表示；根據第二標準化表示確定第二文件中根本概念的數目；比較第一文件中根本概念的數目與第二文件中根本概念的數目，以生成第二文件相對第一文件的相似性的分數。33、如權利要求32所述的方法，進一步包括將第一文件的單詞劃分為名詞短語和動詞從句；將第二文件的單詞劃分為名詞短語和動詞從句；比較第一文件的劃分與第二文件的劃分，以對第二文件相對第一文件的相似性的分數產生影響。34、一種比較文本文件的系統，包括對第一文件的文本的每個單詞進行詞彙標準化以形成第一標準化表示的工具；根據第一標準化表示確定第一文件中根本概念的數目的工具；的工具；根據第二標準化表示確定第二文件中根本概念的數目的工具；比較第一文件中根本概念的數目與第二文件中根本概念的數目，以生成第二文件相對第一文件的相似性的分數的工具。35、一種對基於文本的文章文件進行評分的方法，包括提供標準答案；提供多篇經手工評分的文章；提供多篇待評分的文章；提供對文章進行評分的方程，其中該方程具有多個度量，每一量度具有一個係數，該方程通過對每個由其各自的係數進行修正的度量進行累加來計算文章的分數，每個度量通過將各篇待評分的文章與標準文章進行比較來確定；根據經手工評分的文章確定係數；對每篇待評分的文章應用該方程，以生成每篇文章的分數。36、如權利要求35所述的方法，其中根據經手工評分的文章確定係數通過線性回歸^l^亍。37、如權利要求35或36所述的方法，其中所述度量包括根據權利要求1至16、25至30或32至33中任一項所述任意一種比較文本文件的方法生成的分數。38、一種對基於文本的文章文件進行評分的系統，包括根據多篇經手工評分的文章確定方程中的係數的工具，其中該方程用於對待評分的文章進行評分，該方程包括多個度量，每個度量具有這些係數中的一項係數，該方程生成文章的分數，該分數通過對每個由其各自的係數進行修正的度量進行累加來計算，用於通過將每篇待評分的文章與標準文章進行比較來確定每個度量的工具；用於根據所確定的係數和所確定的度量，對每篇待評分的文章應用該方程以生成每篇文章的分數的工具。39、一種提供關於文章評分的可視反饋的方法，包括顯示被評分的文章中每個根本概念的計數和在答案中預期的每個根本概念的計數。40、如權利要求39所述的方法，其中每個根本概念對應於辭典中所定義的單詞的根本含義。41、如權利要求39或40所述的方法，其中通過對-陂評分的文章中每個單詞進行詞彙標準化以生成被評分的文章中根本含義的表示，以及對被評分的文章中每個根本含義的出現進行計數，來確定每個根本概念的計數。42、如權利要求41所述的方法，其中通過對標準文章中每個單詞進行詞彙標準化以生成標準文章的根本含義的表示，以及對標準文章中每個根本含義的出現進行計數，來確定每個根本概念的計數。43、如權利要求39至42中任一項所述的方法，進一步包括在被評分的文章中選擇概念，並顯示被評分文章中屬於該概念的單詞。44、如權利要求43所述的方法，其中被評分的文章中涉及其它概念的單詞也一皮顯示。45、如權利要求39至44中任一項所述的方法，進一步包括在標準文章中選擇概念，並顯示標準文章中屬於該概念的單詞。46、如權利要求45所述的方法，其中標準文章中涉及其它概念的單詞也被顯示。47、如權利要求39至46中任一項所述的方法，進一步包括顯示所選擇的根本概念的同義詞。48、一種提供關於文章評分的可視反饋的系統，包括顯示被評分的文章中每個根本概念的計數和答案中預期的每個根本概念的計數的工具。49、一種數位化表示文件的方法，包括對文件的每個單詞進行詞彙標準化；將文件中被標準化的單詞劃分為多個部分，每個部分被指定為名詞短語或一皮指定為動詞乂人句。50、如權利要求49所述的方法，其中多個單詞被用來確定各部分是名詞短語還是動詞/人句。51、如權利要求49所述的方法，其中每個部分的前三個單詞被用來確定該部分是名詞短語還是動詞從句。52、如權利要求49至51中任一項所述的方法，其中一部分中的每個單53、如權利要求52所述的方法，其中表格的每段分配給一個語法類型的單詞。54、如權利要求53所述的方法，其中如果單詞具有下一段的語法類型，則將這些單詞順序分配給合適表格中的段。55、如權利要求54所述的方法，其中如果下一單詞不屬於下一個段，則該段留為空白，段的順序分配繼續前進一個位置。56、如權利要求55所述的方法，其中如果下一單詞不屬於當前部分的表格類型，則表示當前部分結束。57、如權利要求52至56中任一項所述的方法，其中這些表格具有多行，以使當下一單詞不適合當前部分中當前單詞之後布置的其它行，但該單詞不表示當前部分結束時，將下一單詞布置在該表格的下一行。58、一種數位化表示文件的系統，包括對文件的每個單詞進行詞彙標準化的工具；詞短語或被指定為動詞從句。59、一種電腦程式，配置為控制計算機執行根據權利要求1至16、25至30、32至33、35至37、39至47或49至57中任一項所述的任一方法。60、一種電腦程式，配置為控制計算機使其作為根據權利要求17至24、31、34、38、48或58中任一項所述的系統工作。61、一種計算機可讀存儲介質，包括根據權利要求59或60所述的電腦程式。全文摘要一種用於比較文本文件的方法和系統，包括對第一文件(104)的文本的每個單詞進行詞彙標準化以形成第一標準化表示。根據第一標準化表示建立(206)第一文件的向量表示。對第二文件(110)的文本的每個單詞進行詞彙標準化以形成第二標準化表示。根據第二標準化表示建立(204)第二文件的向量表示。比較(210)向量表示的共線程度以生成第二文件相對第一文件的相似性的分數(218)。文檔編號G06F17/27GK101238459SQ200680025417公開日2008年8月6日申請日期2006年5月12日優先權日2005年5月13日發明者海因茨·德雷埃爾,羅伯特·弗朗西斯·威廉士申請人:柯廷技術大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

比較文本文件的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法