新四季網

自動文本校正的製作方法

2023-05-21 11:06:41 2

專利名稱:自動文本校正的製作方法
技術領域:
本發明涉及通過使用與相應正確參考文本的比較而自動校正錯誤文本的領域。
由於各種原因,語音-文本轉換方法所生成的文本文檔通常不是沒有錯誤的。儘管自動語音識別(ASR)和自然語言處理(NLP)系統的技術發展水平已經提供了關於語音-文本轉換和自動插入非言語標點、自動文本分段、標題插入、自動編排日期、單元、縮寫等的可觀性能,但是所得到的文本仍然存在系統錯誤。例如,自動語音識別系統會將一個特定單詞誤譯為相似發音的單詞。而且,自動語音識別系統所使用的詞典或字典中的條目可能會存在錯誤。因而,當在提供的語音中識別出該特定字典條目時,該自動語音識別或語音轉錄系統會系統生成錯誤拼寫的單詞。
一般地,所有ASR和NLP系統都是易於出錯的。特別地,複雜的語音-文本轉換器通常對於複雜任務顯示高出錯率,例如當必須執行多個格式化操作時會受到ASR系統的識別錯誤的妨礙。儘管這些事實是眾所周知的,然而沒有一種通用的方案來檢測和消除ASR和NLP系統的系統錯誤。
文獻US 2002/0165716公開了當在語音識別期間使用共識性解碼(consensus decoding)時減少錯誤數量的技術,一般地,對於在實時語音識別期間抽取的模糊集(confusion set)應用多個校正規則。該校正規則是在該語音識別系統的訓練期間確定的,其需要使用許多訓練模糊集。使用一個學習過程來生成多個可能的規則,稱為模板規則,其可以被應用到該訓練模糊集。該學習過程還根據該模板規則確定校正規則。該校正規則對於該實時模糊集處理以從該模糊集中選擇假想詞,其中該假想詞不必須是具有最高分值的單詞。
在文獻US 2002/0165716中,通過使用許多訓練模糊集來確定校正規則,該訓練模糊集是通過共識性解碼從字格(word lattice)轉換得來的。該字格相應地由解碼器使用該識別器的詞典條目生成。以這種方式,校正規則的確定和獲得是基於該語音識別系統的詞典。以這種方式,該識別器的詞典以外的詞是不可用的,因而確定校正規則的整個過程是基於該語音識別系統中已知的詞。此外,每個模糊集包括一個識別詞和一組能夠替換該識別詞的可選詞,即該組提供了用另一單個詞替換單個詞的機會,其中潛在地包括了對應於刪除的「空字(empty word)」。
因此,本發明的目的是提供一種檢測和消除任何類型的給定文本的系統錯誤的通用方案,該文本可以通過與ASR或NLP特定訓練數據、詞典或其他預定文本資料庫無關的ASR或NLP系統生成。
本發明提供了一種通過使用至少一個有錯訓練文本和相應的正確參考文本來生成用於自動文本校正的文本轉換規則的方法。本發明的方法比較至少一個有錯訓練文本和該正確參考文本,並且通過使用該訓練文本和參考文本之間的偏差來獲得一組文本轉換規則。這些偏差是通過該有錯訓練文本和正確參考文本之間的比較來檢測的。在獲得一組文本轉換規則之後,通過對該訓練文本應用每個轉換規則而評估該組文本轉換規則。取決於這種對於該文本轉換規則的評價,選擇該組評估文本轉換規則中的至少一個用於該自動文本校正。
該有錯訓練文本可以通過自動語音識別系統或任何其他類型的語音-文本轉換系統提供。該參考文本相應地對應於該訓練文本,並且應當是無錯誤的。該正確參考文本可以由ASR和/或NLP系統的識別文本的校對者人工生成。可選地,可以為本發明的文本校正系統即可以用於執行本發明方法的系統提供任意參考文本,典型地為電子形式,並且可以通過將該參考文本作為語音輸入到ASR和/或NLP系統和接收轉錄的文本作為由該ASR和/或NLP系統生成的有錯訓練文本而生成該有錯訓練文本。
該生成文本轉換規則的方法還使用了檢測該參考文本和有錯訓練文本之間的偏差。偏差檢測絕不僅限於詞-詞比較,而是還可以包括短語-短語比較,其中每個短語具有該文本的一組單詞。而且,該訓練文本和參考文本之間的偏差可以是指語音-文本轉錄系統可能產生的任何類型的可能錯誤。以這種方式,將檢測和分類該有錯訓練文本中的任何類型的錯誤。
對檢測錯誤的分類典型地是指文本的置換、插入或刪除。例如,該訓練文本中的每個單詞可以被指定到參考文本中的相應單詞,從而當該兩個單詞完全匹配時被標記為正確。如果一個特定單詞被該ASR和/或NLP系統誤譯,例如該系統將「bone」轉錄為「home」,那麼可以將單詞「home」標記為用單詞「bone」置換。在其他將多個單詞轉錄為一個單詞或者反之的情形,可以通過刪除或插入來標記該檢測的偏差,典型地與置換相結合。這可以例如用於當把「a severe」誤譯為「weird」時。
每個檢測偏差典型地被分配到正確參考文本的相應單詞。訓練文本的文本部分與相應正確文本部分的對齊可以通過使用一些標準技術來完成,例如最小編輯距離或Levenshtein對齊。基於錯誤文本部分與相應正確文本部分之間的分配或對齊和適當的分類,可以生成文本轉換規則。對於以上給出的例子,其中「a severe」被誤譯為「weird」,一個文本轉換規則可以規定總是要用「a severe」來替換「weird」。然而,這一文本轉換規則可能不對應於該ASR或NLP系統的系統錯誤,當一致地應用到文本時,每個出現的單詞「weird」都會被替換為「asevere」,而不考慮是否存在單詞「weird」被正確轉錄的其他情形。
文本轉換規則的生成可以以與基於轉換的學習(TBL)相似的方式完成,該基於轉換的學習是在獲得用於校正標記過程的轉換規則的框架中已知的,其中將一些語法信息或語義內容與單詞流對齊。根據本發明,對基於轉換的學習進行修改和適應以便將參考文本與錯誤文本部分對齊。
為了區分重複、系統的和偶然、不能再現的錯誤,必須評估已經自動生成的文本轉換規則。因而,必須確定哪一個生成的文本轉換規則對應於該語音-文本轉錄過程的系統錯誤。該評估典型地這樣完成,對訓練文本應用每一個生成的文本轉換規則,隨後與參考文本進行比較以確定一個文本轉換規則是否提供了錯誤消除或者其應用導致向訓練文本中引入了更多錯誤。即使一個生成的文本轉換規則可以消除一個特定的錯誤,它也會向訓練文本的正確文本部分中引入多個附加的錯誤。
對該組文本轉換規則的評估允許對該文本轉換規則進行排列級別,以便直觀地僅選擇在應用到訓練文本時改善該訓練文本的那些文本轉換規則。因而,該自動生成的文本轉換規則組中的僅僅那些文本轉換規則被選擇和提供到自動文本校正,以檢測和消除ASR和/或NLP系統的系統錯誤。
根據本發明一個優選實施例,根據訓練文本和參考文本的文本區域的對齊來實現文本轉換規則的獲得。這些文本區域規定了相鄰和/或非相鄰的短語和/或單個或多個單詞和/或數字和/或標點符號。以這種方式,本發明的方法可以廣泛應用到任意類型的文本片段或文本區域,而不論它們是否表示單詞、標點符號、數字或其組合。這些訓練文本和參考文本的文本區域之間的分配或對齊可以通過單詞-單詞映射來實現,例如用其相應的正確的參考部分來替換一個錯誤單詞。
因為單詞-單詞分配(assignment)經常是不確定的,所以該方法絕不僅限於單詞-單詞映射。而且,訓練文本和參考文本之間的分配可以在一個較大的範圍內進行。因而,一個具有多個單詞的文本可以被劃分成無錯和有錯區域。基於這種劃分,可以在全部錯誤區域之間執行映射以減少不確定性和學習更長距離的短語-短語映射。這種短語-短語映射例如可以表示為錯誤文本部分「the patient hasweird problem」與正確表示「the patient has a severe problem」之間的映射。
此外,可以基於規定錯誤區域的子區域的部分錯誤區域來進行分配。這可以優選地應用於錯誤區域的短距離錯誤可能在其他上下文中再次出現的情形中。例如,一個部分錯誤區域可以規定一些語法錯誤的表達,例如「one hours」。
在檢測到訓練文本和參考文本之間的偏差或不匹配時,不僅會生成單個文本轉換規則,而且還可以生成多個重疊的文本轉換規則。根據局部檢測的偏差和特定文本轉換規則的生成,該方法不知道該生成的文本轉換規則的整體性能和質量。因此,生成可以應用於一個檢測錯誤的多個規則是有利的。例如,如果句子「the patient has a severeproblem」被轉錄為「the patient has weird problem」,那麼就會生成一組完整的文本轉換規則。一個非常簡單的單詞-單詞轉換規則可以規定用「severe」替換「weird」。另一個文本轉換規則可以規定用短語「a severe」替換「weird」。另一個文本轉換規則可以規定用「has a severe」替換「has weird」,等等。
顯然,當嚴格應用到文本上時,這種自動生成的文本轉換規則中的一些不會改善而僅僅是降低文本的質量。因此,必須應用對於該組文本轉換規則的評估以找出該生成的文本轉換規則組中的合理的文本轉換規則。
根據本發明的另一優選實施例,文本轉換規則包括訓練文本的文本區域與參考文本的文本區域之間的至少一個分配,和進一步使用規定該分配可接受的情形的應用條件。以這種方式,文本轉換規則可以規定僅當滿足一個附加條件時用正確文本區域來替換特定的文本區域。這樣使得能夠制定足夠特別以校正錯誤的一些文本轉換規則而不影響正確的文本。
例如,簡單地在任意兩個單詞之間或者任一出現的單詞「and」之前引入逗號將會向文本中插入比所引入的正確逗號更多的不合適的逗號。在這種情況下,該應用條件可以表示為斷言的形式,例如要求下一個單詞是「and」並且在該「and」之前兩個位置存在逗號以插入一些缺失的逗號。
而且,該應用條件可以規定例外,其可以禁止一些文本轉換規則的可用性。例如,一個文本轉換規則可以規定用「」替換「冒號」。當單詞「冒號」例如前接一個冠詞時禁止該文本轉換規則適用是有利的。更多的應用條件也是可能的,甚至可以利用由詞類表示的單詞上下文。這種詞類例如可以定義度量單位,並且一個應用條件可以規定,如果下一個單詞是來自一類度量單位,那麼用「1」來轉換單詞「one」。這僅僅是一個基本示例,應用條件還可以使用更長距離的上下文條件,其利用了文本分段(text segmentation)和主題標記技術。
根據本發明的另一個優選實施例,對於該組文本轉換規則的評估採用了單獨評估該組文本轉換規則中的每個文本轉換規則。這種對於文本轉換規則的單獨評估還使用了錯誤減少度量,包括步驟對訓練文本應用該文本轉換規則,確定正計數(positive count)的數量,確定負計數(negative count)的數量,以及基於正和負計數而獲得錯誤減少度量。
對訓練文本應用文本轉換規則是指嚴格應用該文本轉換規則和提供一個轉換的訓練文本。然後將原始的和該轉換的訓練文本都與正確參考文本比較,以確定該特定的文本轉換規則的性能。以這種方式,可以精確地確定應用該文本轉換規則多久能消除原始訓練文本中的錯誤。對於訓練文本中每一個錯誤消除,遞增該文本轉換規則的正計數。以同樣的方式,轉換的訓練文本和參考文本之間的比較允許確定該文本轉換規則的應用多久能在該訓練文本中生成錯誤。在這種情況下遞增負計數的數值。
基於這些正和負計數的數值,可以獲得錯誤減少度量。典型地,可以通過從正計數中減去負計數來獲得錯誤減少度量。如果該結果是正的,那麼該特定的文本轉換規則總的來說將改善該訓練文本。在另一種情況下,當結果為負時,當被自動文本校正系統應用時,該特定文本轉換規則的嚴格應用將對文本有不利影響。此外,該誤差減少度量可以通過一些錯誤量化器來衡量,其確定了該特定文本轉換規則的單獨應用會產生或消除多少錯誤。這就允許獲得能夠用於比較各種文本轉換規則的性能的通用錯誤減少度量。
理論上,通過對每個文本轉換規則使用錯誤減少度量,就已經能夠選擇出對於訓練文本具有積極影響的文本轉換規則。在這種情況下,不考慮該文本校正規則組中各個規則之間的可能的相互作用。因為該各個文本轉換規則可能重疊,即它們涉及相同的或者部分重疊的文本區域,所以對相同的文本區域隨後應用各個規則會相應地導致該文本的退化(degradation)。
根據本發明的另一優選實施例,評估和獲得該組文本轉換規則還包括迭代執行評估過程。這裡,在第一步,通過使用該規則錯誤減少度量來對該組文本轉換規則進行級別排列。然後,對於訓練文本應用最高級別的文本轉換規則以生成第一轉換的訓練文本。該最高級別規則是指該整組文本轉換規則中為該文本提供最大增強和最小退化的規則。因為該最高級別文本轉換規則的應用會影響原始的訓練文本,所以必須至少對其他剩餘的所有規則進行再次評估和/或設計以處理該修改的訓練文本。
一般地,該剩餘規則的級別排列不再有效。因此,基於該參考文本和第一轉換的訓練文本獲得第二組文本轉換規則。獲得該第二組文本轉換規則典型地與生成第一組文本轉換規則類似,即通過比較該第一轉換的訓練文本與該參考文本,檢測該兩個文本之間的偏差和生成正確的文本轉換規則。
在獲得該第二組文本轉換規則之後,基於該第二組文本轉換規則和第一轉換的訓練文本執行第二次級別排列。該級別排列與對該組文本轉換規則的最初級別排列類似進行,因而它對該第二組文本轉換規則中的每個規則使用錯誤減少度量。然後,對該第一轉換的訓練文本應用第二組文本轉換規則中最高級別的規則以生成第二轉換的訓練文本。然後,重複應用該整個過程,並基於該第二轉換的訓練文本與原始參考文本之間的比較而生成第三組文本轉換規則。優選地,這一迭代過程可以被執行直到n次轉換的訓練文本等於該參考文本或者直到n次轉換的訓練文本相對於(n-1)次轉換的訓練文本不顯示任何改善。典型地,每個迭代中的最高級別規則被選擇作為用於該自動文本校正系統的文本轉換規則。
通過使用這一迭代過程,考慮了各個文本轉換規則之間的相互作用,並且提供了一種執行評估和規則生成過程的可靠方案。然而,這一迭代評估過程在計算上是昂貴的,因而需要不合適的計算時間和計算資源。
根據本發明的另一優選實施例,評估該組文本轉換規則包括如果該組文本轉換規則中的第一和第二文本轉換規則實質上是指訓練文本的相同文本區域,那麼丟棄該第一和第二文本轉換規則中的第一文本轉換規則。如果該第一文本轉換規則被評估為比第二文本轉換規則更差,即該第一規則的錯誤減少度量比第二規則的錯誤減少度量更差,那麼丟棄該第一文本轉換規則。丟棄決不是限於成對(pairswise)丟棄。而且,排列所有涉及相同文本區域的規則和對涉及該文本區域的那些規則排列級別是有利的。然後,對於每個文本區域,僅選擇那些具有最大錯誤減少度量的規則和提供到文本校正系統。以這種方式,不需要明確應用該迭代過程以便相對於規則相互作用而找到好的規則。
根據本發明的另一優選實施例,獲得該組文本轉換規則還使用了特別針對一種文本錯誤的至少一類文本單元或「單詞」。典型地,這類文本單元,也稱為詞類,是指一個語法規則或一些上下文特定規則。詞類例如可以規定一類度量單位,例如米、千米、毫米。有利地,一個轉換規則可以採用這種詞類以便例如當後接由該詞類說明的度量表示時,用相應的數字來替換書面數字(written number)。其他示例可以涉及不定冠詞的類,例如「a,an,one」,其永遠不會後接複數詞例如「houses,cars,pencils,...」。使用詞類的文本轉換規則還可以被實施為使用上述用於文本轉換規則的應用條件。
根據本發明的另一優選實施例,文本轉換規則本身可以被指定為將一些文本區域轉換成另一文本區域,除非滿足某些條件,該某些條件典型地指示一種將正確文本區域轉換為錯誤文本區域的非預期轉換。以這種方式,文本轉換規則可以不僅以正面方式規定一種替代、插入或刪除,而且還禁止對於具有較高正確概率的文本區域進行轉換。
根據本發明的另一優選實施例,評估和/或選擇文本轉換規則還包括向用戶提供該組文本轉換規則中的至少一些。然後用戶可以人工評估和/或人工選擇任何一個被提供的文本轉換規則。以這種方式,可以通過與用戶交互來執行評估和選擇高度執行文本轉換規則的鑑定任務。典型地,可以以可視方式向用戶提供文本轉換規則,例如可視化文本轉換規則的具體替代和提供表示用於該文本轉換規則的應用條件的邏輯表達式。用戶可以提供一組例如涉及相同文本區域的駕御性(conquering)文本轉換規則。然後用戶可以選擇該提供的可選文本轉換規則中的一個。
根據本發明的另一優選實施例,該有錯誤的訓練文本被提供一個自動語音識別系統、自然語言理解系統或一般為語音-文本轉換系統。因而,本發明的方法是專用於基於這些系統的文本輸出和與相應的正確參考文本比較而檢測這些系統的系統錯誤。
本發明的方法還自動生成允許補償該檢測的系統錯誤的文本轉換規則。而且,本發明的方法一般允許比較有錯誤文本與參考文本而不考慮其來源。以這種方式,本發明的方法甚至可以應用在教育程序中,其中一些受訓者或學生產生潛在有錯誤的文本,並且本發明的方法可以用於在校正該文本之後或將該文本與參考文本比較後向學生提供反饋。
在另一方面,本發明提供了一種使用文本轉換規則校正有錯文本的文本校正系統。該文本校正系統適於通過使用至少一個有錯訓練文本和相應的正確參考文本來生成該文本轉換規則。本發明的文本校正系統包括用於將該至少一個有錯訓練文本與該正確參考文本相比較的裝置,用於通過使用該訓練文本與參考文本之間的偏差來獲得一組文本轉換規則的裝置,從而通過該比較來檢測該偏差。該文本校正系統還包括通過對該訓練文本應用每個轉換規則而評估該組文本轉換規則的裝置,和選擇該組被評估的文本轉換規則中的至少一個用於該文本校正系統的裝置。
在另一方面,本發明提供了一種生成用於自動文本校正的文本轉換規則的電腦程式產品。該電腦程式產品適於處理至少一個有錯訓練文本和相應的正確參考文本。該電腦程式產品包括可操作以比較該至少一個有錯訓練文本與正確參考文本、和通過使用該訓練文本與參考文本之間的偏差來獲得該組文本轉換規則的程序裝置。典型地,通過該計算機支持的比較來檢測這些偏差。該電腦程式產品的程序裝置還可以通過對訓練文本應用每個轉換規則來評估該組文本轉換規則和最終選擇該組被評估的文本轉換規則中的至少一個用於該文本校正系統。
在另一方面,本發明提供了一種用於將語音轉錄為文本的語音-文本轉換系統。該語音-文本轉換系統具有使用文本轉換規則以校正文本的錯誤的文本校正模塊,並且具有通過使用該語音-文本轉換系統生成的至少一個有錯訓練文本和相應的正確參考文本來來生成文本轉換規則的規則生成模塊。該語音-文本轉換系統特別是其規則生成模塊包括用於存儲該參考和訓練文本的存儲模塊,用於比較該至少一個有錯訓練文本和正確參考文本的比較模塊,用於獲得一組文本轉換規則的轉換規則生成器,適於通過對訓練文本應用每個轉換規則而評估該組文本轉換規則的評估器,和最後選擇該組評估的文本轉換規則中的至少一個用於該文本校正模塊的選擇模塊。
根據本發明的另一優選實施例,該語音-文本轉換系統和/或文本校正系統包括一個用戶界面,用於可視顯示生成的文本轉換規則結合對於每個文本轉換規則評估或計算的錯誤變化或錯誤減少度量的信息。該用戶界面包括允許排序和/或選擇和/或丟棄一個特定規則或一組規則的選擇工具。而且,該用戶界面還可以提供由用戶人工定義和生成文本轉換規則。因而,用戶自己可以定義或制定任意規則。然後,該用戶定義的規則可以提供到評估模塊,並且用戶可以被提供關於該制定的規則的性能的反饋。用戶定義的規則還可以被包括在自動生成的規則的級別中,從而可以組合統計證據和人的感知以獲得最佳效果。
而且,該用戶界面可以可視顯示詞類以使得用戶能夠人工控制和規定對於詞類的修改,例如合併或分解詞類。此外,該用戶界面可以圖形化高亮被應用了文本轉換規則的修改文本中的區域。高亮可以與撤消(undo)功能組合提供,該撤消功能允許容易地補償由某個規則引入的修改。
根據另一優選實施例,通過比較一個或多個訓練和參考文本而生成用於其應用的規則和條件列表。代替了基於生成規則的數據對該規則進行評估,可以存儲它們以備以後使用。然後,在從特定用戶接收訓練和參考文本的基礎上,可以基於這些文本而評估所有規則。該方案使得能夠從先前生成和存儲的較長規則列表中進行用戶制定的規則選擇,其可以來自具有不同錯誤特性的多個不同用戶。從較大的數據集中預先生成規則會比僅從通常限制的用戶制定數據中提取規則提供更多規則,或者用於使用或禁止一些規則的改進的條件。此外,還可以減少在聯機系統中生成規則的時間。
因此,本發明提供了一種廣泛適用於任意兩個對應文本的方法,其中一個文本具有多個錯誤。該方法和文本校正系統能夠廣泛實施在語音-文本轉換系統中,並且允許補償這些系統的系統錯誤或者至少為用戶提供如何才能消除文本中的錯誤以用於該語音-文本轉換系統的未來應用,例如ASR和/或NLP。
還應該注意到,權利要求中的任何參考標記都不能被解釋為對於本發明的範圍的限制。
以下將通過參照附圖來更詳細地描述本發明的優選實施例,其中

圖1示出了本發明的生成文本轉換規則的方法的流程圖,圖2示出了參考文本、訓練文本和文本轉換規則列表的示意性框圖,圖3示出了迭代評估文本轉換規則的流程圖,圖4示出了生成用於自動文本校正系統的文本轉換規則的規則生成模塊的框圖。
圖1示出了使用至少一個有錯訓練文本和相應的正確參考文本來執行本發明的生成文本轉換規則的方法的流程圖。典型地,該參考文本已經被提供給自動文本校正系統並存儲在適當的存儲器中。然後,在第一步100,有錯文本,也被表示為訓練文本,被接收和存儲在適當的存儲器中。以這種方式,有錯文本和參考文本被分別存儲以允許比較和修改該有錯文本。
典型地,該有錯文本由自動語音識別系統和/或自然語言處理系統或任何其他類型的語音-文本轉換系統提供。在步驟100接收該有錯文本之後,在隨後的步驟102,比較有錯文本和參考文本。該比較可以是基於單詞-單詞比較或者是基於比較整個文本區域包括多個單詞、數字、標點符號和類似的文本單元。有利地,該比較可以通過最小編輯距離和/或Levenshtein對齊來進行,甚至還提供對於有錯文本部分和對應的正確文本部分之間的偏差的度量。
基於該比較,在步驟104可以獲得一組文本分配,在步驟106可以獲得一組分配條件。文本分配可以涉及為了將有錯文本轉換成其對應的正確部分而必要的任何類型的文本修改。以這種方式,文本分配可以涉及插入、刪除或替換。例如,一個錯誤表達例如「the patienthas weird problem」可以被分配到參考文本的正確表達「the patienthas a severe problem」。
典型地,對於每個檢測的偏差,可以生成有錯文本部分和對應正確文本部分之間的多個可能的文本分配。參照上述例子,將「weird」替換為「severe」和將「weird」替換為「a severe」以及其他許多方式都是可以接受的。除了該文本分配之外,在步驟106可以獲得用於每個文本分配的一組分配條件。分配條件可以規定當滿足一些特定的分配條件時必須應用一個特定的文本分配。例如當一個文本分配規定在單詞「and」前插入逗號時,該分配條件可以規定該文本分配規定的插入僅適用於在「and」出現前的兩個位置存在冒號時。另一個文本分配的例子可以是用符號「」替換單詞「colon」。這裡,該分配可以規定,如果在前單詞是冠詞或屬於一類文本元素或文本區域例如「a,an,the」,那麼不應用該文本分配。另一個禁止條件可以是表示當前句子屬於例如一些腸胃診斷的一些更高水平的文本分段。
該用於文本分配或文本映射的分配條件可以通過對相關文本映射進行統計評估來提取。因而,通過嚴格應用特定的文本分配和確定該文本分配的嚴格應用是否消除或引入錯誤,當考慮到該文本分配的周圍文本部分時,可以獲得分配條件。在上述將「the patient has weirdproblem」映射到「the patient has a severe problem」的例子中,替換中心是用「a severe」替換「weird」,可以以正面形式將其周圍單詞規定為一個條件。這裡,一個可能的條件可以描述為「在前單詞是『has』或者來自包含『has』的一些詞類」。
當然,也可以從該比較的文本中直接提取更長距離的相關性,包括非相鄰文本區域,例如在條件「兩個單詞前必須有一個逗號」中。
理論上,在步驟104生成的獲得的文本分配和在不周106獲得的對應組分配條件足以規定一個文本轉換規則。在一個最簡單的實施例中,已經獲得文本分配例如替換、插入和刪除就可足以規定一個特定的文本轉換規則。
有利的,在步驟108通過使用前兩個步驟104和106來獲得和生成該各個文本轉換規則,即一組文本轉換規則。以這種方式,文本分配和分配條件被有效地結合。一旦該文本轉換規則已經在步驟108生成,它們就被一些種類的存儲器存儲。在步驟108獲得該組文本轉換規則之後,在隨後的步驟,必須評估全部文本轉換規則以選擇表示生成有錯文本的語音-文本轉換系統的系統錯誤的那些文本轉換規則。
對於文本轉換規則的評估可以以多種不同的方式進行。一種基本的方案通過分別對訓練文本應用每個文本轉換規則和將轉換的訓練文本與參考文本相比較,以確定該文本轉換規則是否對訓練文本的錯誤率有正面或負面影響。例如,對於每個文本轉換規則,基於因為應用該規則而消除或生成一個錯誤,分別遞增正和負計數器。基於這些正和負計數,可以獲得指示該文本轉換規則對於該有錯文本的整體性能的錯誤減少度量。
一種評估該多個文本轉換規則的更複雜方案是基於迭代評估過程的進行。相對於例如其錯誤減少度量而對該多個文本轉換規則排列級別,並且僅僅將最高級別的文本轉換規則應用到該有錯文本。然後,重複將修改的有錯文本與參考文本比較以生成第二組文本轉換規則。也對該第二組文本轉換規則排列級別,並且再次將最高級別的規則應用到該修改的訓練文本以生成第二個修改的訓練文本。該過程被重複進行並且允許相對於各個規則之間的相互作用而評估該各個文本轉換規則。
另一個方案使用了相對於各個規則的公共文本分配來排列各個文本轉換規則。該排列考慮了應用到例如相同類型錯誤上的部分重疊的規則。以這種方式,生成各組文本轉換規則,並且對於每組文本轉換規則,實際上選擇單個規則,典型地為具有最佳性能的那一個,即具有最高級別的那個。因而,在步驟110執行的對於文本轉換規則的評估可以與隨後的步驟112相聯繫,其中選擇各個文本轉換規則用於該文本校正系統。
一旦在步驟112選擇出這些規則,就在步驟114將它們提供到文本校正系統,其適於按照選擇的順序嚴格應用這些文本轉換規則。因為該評估和選擇的文本轉換規則是特別用於該有錯文本的系統錯誤或生成該有錯文本的ASR系統或語音-文本轉換系統的系統錯誤的,所以該生成的規則可以廣泛用於補償ASR系統的系統錯誤或者重新設計該ASR系統。因而,本發明的生成文本轉換規則的方法可以廣泛用於任何商業可用的語音-文本轉換系統。然後,該生成的文本轉換規則可以被適於校正該語音-文本轉換系統的系統錯誤的自動文本校正系統使用,或者作為反饋用於改進該語音-文本轉換系統。
圖2中所示的框圖示出了參考文本200和具有有錯文本部分的訓練文本204。作為一個例子,該參考文本具有文本部分202例如「thepatient has a severe problem」,訓練文本204具有對應的有錯文本部分206「the patient has weird problem」。通過比較該參考文本200和訓練文本204,將檢測到兩個表達202、206之間的偏差。該對於訓練文本204的有錯部分的檢測可以通過使用單詞-單詞比較、短語-短語比較或者將有錯文本部分206分割為正確和錯誤文本區域來完成。
兩個文本元素或文本區域202、206之間的偏差可能是由於許多原因。因此,對於該檢測到的偏差,生成完整的一組文本轉換規則,如表208所示。典型地,該文本轉換規則規定了存儲在欄216中的有錯文本必須被欄218中所示的正確文本替換。這些可選分配中的每個規定了不同的文本轉換規則210、212、214,它們中的每個可以具有由欄220給出的應用條件。如上所述,用「has a severe」替換「hasweird」的規則214還可以被表示為例如規則212,用「a severe」替換「weird」,以及附加條件220即在前的單詞必須是「has」。以這種方式,可以根據對周圍文本部分的分析自動提取條件。類似地,如果一些更高水平的分段或任何類型的標記(tagging)是可用的,那麼該附加信息可以用作條件220。
相對於有錯文本元素206及其正確對應部分202,各種替代都是可接受的。例如,規則210可以規定必須用「severe」替換「weird」。規則212可以規定必須用兩個單詞「a severe」替換「weird」,規則214可以規定必須用表述「has a severe」替換表述「has weird」。這些規則210、212、214的生成被執行,而不考慮這些規則的內容和這些規則的潛在性能。例如,普遍使用「severe」替換「weird」顯然不是一個好的選擇,因為任何使用單詞「weird」的正確文本部分都會被單詞「severe」替代。因此,需要對該多個生成的規則210、212、214進行評估和排列級別,包括其相關的條件220,如果存在的話。
圖3示出了執行該迭代評估過程的流程圖。該迭代評估過程使用了通過比較該有錯訓練文本和正確參考文本而檢測和生成的多個文本轉換規則。在第一步驟300中,對於該組文本轉換規則中的每個文本轉換規則,確定一個錯誤減少度量。該錯誤減少度量的確定可以通過將一個文本轉換規則嚴格應用到該有錯文本和隨後將轉換的文本與原始參考文本比較而有效進行。以這種方式,可以檢測到該文本轉換規則的應用是否導致錯誤的消除或生成。通過使用正和負計數來確定是否出現新生成的錯誤和消除的錯誤,從而可以獲得每個文本轉換規則的錯誤減少度量。該錯誤減少度量例如可以通過從正計數中減去負計數來確定,從而指示該特定的文本轉換規則是否對該有錯訓練文本產生增強或退化影響。
基於該錯誤減少度量,可以在隨後的步驟302中對該組文本轉換規則進行排列級別和重新排序。因而,可以相對於其錯誤減少度量對該多個文本轉換規則排序。典型地,可以丟棄那些具有負錯誤減少度量的文本轉換規則,即那些引入錯誤比消除錯誤更多的規則。
在步驟302對該文本轉換規則進行級別排列之後,在隨後步驟304中,將最高級別的文本轉換規則應用到訓練文本。該最高級別文本轉換規則的應用是指僅嚴格應用該特定的轉換規則。因此,該訓練文本將被適當修改。然後,在步驟306,將嚴格應用該最高級別轉換規則所得到的轉換的訓練文本與參考文本比較。在步驟306中執行的該比較利用了與生成最初的一組文本轉換規則所應用的相同的技術。因而,可以檢測到該轉換的訓練文本與參考文本之間的偏差,並且生成相應的文本轉換規則。
基於在步驟306執行的比較,在隨後步驟308中生成下一組文本轉換規則。然後,在步驟310,檢驗用於該迭代評估過程的停止準則。該停止準則例如可以規定該評估過程應該在第十次迭代後停止。可選地,該停止準則可以規定,當在步驟308中僅生成有限數量的轉換規則從而表明轉換的訓練文本和參考文本幾乎完全匹配時,停止該過程。如果步驟310中的停止準則被滿足,那麼該過程將繼續到步驟312,其中停止對於該組文本轉換規則的評估,並且選擇每次迭代中最高級別的規則作為提供給該文本校正系統的文本轉換規則。
在另一情況下,當在步驟310中不滿足該停止準則時,該過程繼續到步驟314,其中單獨評估由步驟308生成的下一組文本轉換規則。該單獨評估是指對於該下一組文本轉換規則中的每個文本轉換規則確定一個錯誤減少度量,如在步驟300中對於最初一組文本轉換規則所進行的。相應地,基於該單獨的文本轉換規則的錯誤減少度量,對該下一組文本轉換規則進行級別排列。然後,該過程返回步驟304,其中將最高級別的文本轉換規則應用到訓練文本。
優選地,在步驟304的重複運行中,不是將該最高級別的文本轉換規則應用到原始訓練文本,而是應用到根據該最初一組文本轉換規則的最高級別轉換規則的第一次應用而得到的訓練文本。
該評估和選擇文本轉換規則的迭代過程允許考慮各個文本轉換規則之間的相互作用,例如當文本轉換規則有某種重疊時。以這種方式,在應用該最佳評估的文本轉換規則之後,重複應用將修改文本與訓練文本比較、確定一組文本轉換規則和對該文本轉換規則進行評估和排列級別的整個過程。
圖4示出了適於生成和評估文本轉換規則的規則生成模塊400的框圖。該規則生成模塊400可以與為該規則生成模塊400提供有錯文本輸入的自動語音識別系統402相互作用。此外,該規則生成模塊400還適於與文本校正系統404和用戶406交互。可選地,所示規則生成模塊400可以被實施在文本校正系統404和/或語音-文本轉換系統中例如ASR 402中。
該規則生成模塊400具有存儲模塊408,其用於分別將有錯文本作為訓練文本存儲在訓練文本存儲模塊422中和將正確參考文本存儲在參考文本存儲模塊424中。典型地,訓練文本和參考文本被存儲在一個可重新配置存儲模塊408的不同存儲模塊中。該訓練文本和參考文本典型地以電子形式提供到規則生成模塊400。
規則生成模塊400還具有比較模塊412、規則生成器414、規則存儲器416、顯示器418、規則選擇器420、用戶界面428和規則評估器410。典型地,規則評估器410還具有存儲器,特別地為臨時存儲模塊426。
比較器412用於將訓練文本與參考文本相比較以找出參考文本和訓練文本之間的任何偏差。該比較可以使用兩個文本之間的單詞-單詞比較和單詞-單詞匹配,但決不限於單詞-單詞映射。而且,該比較器模塊412適於執行Levenshtein對齊或使用最小編輯距離算法,以找出和分類該訓練文本和參考文本的文本元素或文本區域的任何偏差。該比較器模塊412可以使用短語-短語匹配和將文本分割為有錯和無錯區域。
基於該比較器模塊412的結果,規則生成器414適於為每個有錯文本區域生成至少一個規則。典型地,該規則生成器為有錯文本區域分配相應的正確文本區域,並且還可以為該分配規定應用條件。典型地,規則生成器414適於為每個檢測的偏差生成一組可選規則。這對於覆蓋大量可接受和適於消除所檢測錯誤的校正規則是特別有利的。
規則存儲模塊416適於存儲通過規則生成器414生成的規則。規則評估器410適於與規則生成模塊400的幾乎任何其他組件相互作用。該規則評估器用於將規則生成器414生成的規則應用到存儲在存儲模塊422中的訓練文本。規則評估器410具有臨時存儲模塊426,用於例如存儲由於嚴格應用存儲在規則存儲模塊416中的特定規則而修改的修改訓練文本。
除了應用該特定規則和將結果存儲在臨時存儲模塊426中之外,規則評估器410還適於比較參考文本和修改的訓練文本。典型地,該比較可以通過比較器412完成。以這種方式,規則評估器410控制比較器412以比較該修改的訓練文本和參考文本。該比較的結果可以提供到規則評估器,其可以相應地提取和獲得該被應用規則的錯誤減少度量。然後,可以將該錯誤減少度量提交給規則存儲模塊416以分配給相應規則。
規則評估器410還適於執行任何一個所述的規則評估過程。因而,該規則評估器適於對存儲在規則存儲模塊416中的規則排列級別和將最高級別的規則應用到該訓練文本。然後,規則評估器410可以控制比較器412、規則生成器414和規則存儲器416,以便基於該修改的訓練文本和參考文本之間的比較而生成第二組文本轉換規則。通過每次迭代,可以僅把最高級別的規則提交到規則選擇器420。最後,通過規則評估器410和規則選擇器420評估和選擇的規則被提供給文本校正系統400,在這裡它被嚴格應用於未來在語音文本轉換框架中的應用。
此外,規則評估器410可以與顯示器418和用戶界面428交互。可選地,用戶界面428和顯示器418可以被實施為規則生成模塊400的外部組件。在任何情況下,用戶406都可以通過顯示器418和用戶界面428與規則生成模塊400交互。以這種方式,可以向用戶顯示由規則生成器414生成的各個規則,並且可以相應地人工選擇、取消選擇、排序或丟棄該生成的規則中的一些。然後,該用戶輸入被提供到該規則評估器和/或規則選擇器420以提取用於文本校正系統404的適當規則。此外,用戶還可以提供生成器模塊414沒有建議的其他規則。然後,這些規則被比較器412和評估器410評估,並且該結果被反饋回用戶或者可以被規則選擇器採用。
參考數字列表200參考文本202文本元素204訓練文本206文本元素208一組文本轉換規則210文本轉換規則
212文本轉換規則214文本轉換規則216有錯文本元素218正確文本元素220分配應用條件400規則生成模塊402自動語音識別系統404文本校正系統406用戶408存儲模塊410規則評估器412比較器414規則生成器416規則存儲器418顯示器420規則選擇器422訓練文本存儲模塊424參考文本存儲模塊426臨時存儲模塊428用戶界面
權利要求
1.一種通過使用至少一個有錯訓練文本(204)和相應的正確參考文本(200)來生成用於自動文本校正的文本轉換規則(210,212,214)的方法,包括步驟比較該至少一個有錯訓練文本和該正確參考文本,通過使用該訓練文本和參考文本之間的偏差來獲得一組文本轉換規則(210,212,214),該偏差是通過該比較來檢測的,通過對該訓練文本應用每個轉換規則而評估該組文本轉換規則,選擇該組評估的文本轉換規則中的至少一個用於自動文本校正。
2.如權利要求1所述的方法,其中相對於該訓練文本和參考文本的文本區域(216,218)之間的分配而獲得文本轉換規則(210,212,214),該文本區域規定了連續和/或不連續的短語和/或單個或多個單詞和/或數字和/或標點符號。
3.如權利要求1所述的方法,其中文本轉換規則(210,212,214)包括訓練文本的文本區域(216)和參考文本的文本區域(218)之間的至少一個分配,該文本轉換規則還使用了規定該分配適用情形的應用條件(220)。
4.如權利要求1所述的方法,其中評估該組文本轉換規則(210,212,214)利用單獨評估該組文本轉換規則中的每個文本轉換規則,文本轉換規則的評估還使用了錯誤減少度量,並且包括步驟對訓練文本(204)應用該文本轉換規則以生成轉換的訓練文本,確定多個正計數,其表示應用該文本轉換規則多久能消除該訓練文本的錯誤,確定多個負計數,其表示應用該文本轉換規則多久能在該訓練文本中生成錯誤,通過使用正和負計數的數量來獲得該文本轉換規則的錯誤減少度量。
5.如權利要求4所述的方法,其中評估該組文本轉換規則(210,212,214)包括一個迭代評估過程,其中一個迭代包括步驟通過使用錯誤減少度量來對該組文本轉換規則排列級別,對訓練文本應用最高級別的文本轉換規則以生成第一轉換的訓練文本,基於參考文本和第一轉換的訓練文本來獲得第二組文本轉換規則,並且其中,隨後的迭代包括對該第二組文本轉換規則進行第二次評估和第二次級別排列。
6.如權利要求4所述的方法,其中評估該組文本轉換規則(210,212,214)包括如果該第一和第二文本轉換規則實質上涉及該訓練文本的一個或多個相同的文本區域,丟棄該組文本轉換規則中的第一和第二文本轉換規則中的第一文本轉換規則;並且其中,如果該第一文本轉換規則被評估為比第二文本轉換規則更差,則丟棄該第一文本轉換規則。
7.如權利要求1所述的方法,其中獲得該組文本轉換規則(210,212,214)和/或應用條件使用了至少一個詞類。
8.如權利要求1所述的方法,其中該文本轉換規則(210,212,214)還規定了禁止將正確文本區域轉換成錯誤文本區域的條件。
9.如權利要求1所述的方法,其中評估和/或選擇文本轉換規則還包括向用戶(406)提供該組文本轉換規則中的至少一些,以允許用戶人工評估和/或人工選擇該提供的文本轉換規則(210,212,214)。
10.如權利要求1所述的方法,其中用戶定義的規則被評估,並且其中該評估的規則被選擇用於該自動文本校正和/或提供給用戶以進行人工選擇。
11.如權利要求1所述的方法,其中該有錯訓練文本(204)由自動語音識別系統(402)、自然語言理解系統或語音-文本轉換系統提供。
12.一種使用文本轉換規則(210,212,214)校正有錯文本的文本校正系統(404),該文本校正系統適於通過使用至少一個有錯訓練文本(204)和相應的正確參考文本(200)來生成文本轉換規則,該文本校正系統包括用於將該至少一個有錯訓練文本與該正確參考文本相比較的裝置,用於通過使用該訓練文本與參考文本之間的偏差來獲得一組文本轉換規則的裝置,其中通過比較來檢測該偏差,用於通過對該訓練文本應用每個轉換規則而評估該組文本轉換規則的裝置,用於選擇該組被評估的文本轉換規則中的至少一個用於文本校正系統的裝置。
13.一種生成用於文本校正系統(404)的文本轉換規則的電腦程式產品,該電腦程式產品適於處理至少一個有錯訓練文本(204)和相應的正確參考文本(200),該電腦程式產品包括可操作以實現以下功能的程序裝置比較該至少一個有錯訓練文本與正確參考文本,通過使用該訓練文本與參考文本之間的偏差來獲得該組文本轉換規則(210,212,214),其中通過比較來檢測這些偏差,通過對訓練文本應用每個轉換規則來評估該組文本轉換規則,選擇該組被評估的文本轉換規則中的至少一個用於該文本校正系統。
14.一種用於將語音轉錄為文本的語音-文本轉換系統,該語音-文本轉換系統具有使用文本轉換規則(210,212,214)以校正文本的錯誤的文本校正模塊(404),並且具有通過使用由語音-文本轉換系統生成的至少一個有錯訓練文本和相應的正確參考文本來來生成文本轉換規則的規則生成模塊(414),該語音-文本轉換系統包括用於存儲該參考和訓練文本的存儲模塊(408),用於比較該至少一個有錯訓練文本和正確參考文本的比較模塊(412),用於獲得一組文本轉換規則的轉換規則生成器(414),該轉換規則生成器適於使用該訓練文本和參考文本之間的偏差,該偏差是通過處理模塊檢測的,適用於通過對該訓練文本應用每個轉換規則而評估該組文本轉換規則的評估器(410),選擇該組評估的文本轉換規則中的至少一個以用於該文本校正模塊的選擇模塊(420)。
全文摘要
本發明提供了一種為語音-文本轉錄系統生成文本轉換規則的方法。該文本轉換規則是通過比較由該語音-文本轉錄系統生成的有錯訓練文本和正確參考文本而生成的。有錯和參考文本的比較允許獲得一組文本轉換規則,通過對該訓練文本嚴格應用和隨後與該參考文本比較而評估該組文本轉換規則。對文本轉換規則的評估提供了一種確定哪一個自動生成的文本轉換規則提供該有錯文本的增強或退化的充分方案。以這種方式,僅選擇該組文本轉換規則中確保增強該有錯文本的那些文本轉換規則。以這種方式,可以有效補償自動語音識別或自然語言處理系統的系統錯誤。
文檔編號G10L15/00GK101031913SQ200580033376
公開日2007年9月5日 申請日期2005年9月28日 優先權日2004年9月30日
發明者J·彼德斯, E·馬圖索夫 申請人:皇家飛利浦電子股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀