作為語音識別錯誤預測器的用於語法適合度評估的方法和系統的製作方法

2023-04-24 15:00:16 4

專利名稱：作為語音識別錯誤預測器的用於語法適合度評估的方法和系統的製作方法
技術領域：
本發明總體上涉及一種語音識別系統的方法，更具體地涉及用於評估要在語音識別系統中使用的語法的適合度的方法和系統。
背景技術：
系統設計者和製造商將用於系統用戶與電子裝置連接所實現的強壯和有效的技術作為重要考慮。電子裝置的語音控制的操作常常可以提供用於系統用戶控制電子裝置和與電子裝置交互的期望的接口。例如，電子裝置的語音控制的操作可以允許用戶同時執行其他任務，或在特定類型的操作環境中會是有益的。另外，具有身體限制或特殊要求的用戶可能也期望電子裝置的免提操作。可以通過各種語音激活的電子裝置來實現電子裝置的免提操作。語音激活的電子裝置有益地允許在使用傳統的輸入裝置不方便或可能危險的情況下用戶與電子裝置連接。然而，有效地實現語音識別系統對於系統設計者設立了相當大的挑戰。在語音識別系統的領域中，語音識別系統輸入音頻流，該音頻流被過濾以提取和分出作為語音的聲音片段。語音識別引擎然後通過下述方式來分析語音聲音片段將它們與定義的發音詞典、語法識別網絡和聲音模型作比較。子詞彙語音識別系統通常配備了一種用於從模型化語音波形的更基本的單元來構成詞和語句的方式。例如，在基於音素模型的語音識別系統中，可以將發音詞典作為查找表，以從它們的音標建立詞。而且，用於詞組合的明確規則被提供來由詞建立句子。句子構造的規則被看作「識別語法」。識別語法的複雜度取決於要識別的應用的特性。例如，一些簡單的命令類的應用要求詞分開的語法，而一些對話類應用要求更複雜的句子的構造。不管應用的複雜度如何，應用開發者需要小心地指定語法，並且需要對該語法進行改善以便保證完整性(即，該語法覆蓋應用所需要的所有句子)並避免過度產生(即，保證語法不允許產生應用所不能理解的預料之外的句子)。即使對於更有經驗的應用開發者而言，這樣做也很耗時。不管開發者為致力來建立語法付出多少努力，語法都會包括語音識別系統可能在其中產生錯誤的幾個區域。這是由於具有不同的含義並且與不同的行為相關聯的不同詞在聲音上類似，或是由於詞的特定組合非常接近於表示不同的含義或行為的另一個詞組合。這使得語音識別系統難以將詞彼此區分開，由此引發識別錯誤。因此，應用開發者的任務是考慮與語法的可能混淆源，並且通過嘗試避免在語法的可互換的位置中布置可引起混淆的詞來試圖消除可能的混淆源。然而，當在語法內的一組可能的詞組合對於開發者以足夠的細節和精度來手動探索而言太長時，這會是特別有挑戰性的。因此，期望有系統的方式來自動地評估語法以識別可混淆詞在語法內的可互換的位置中的布置。

發明內容
在一個實施例中，公開了一種計算機實現的方法，用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆。所述方法包括用於從語法結構內接收多個語句的操作。多個語句的每一個由多個詞集形成。所述方法還包括通過在詞集的基礎上對齊所述多個語句來識別在所述多個語句上的多個對齊區域的操作。每一個對齊的詞集表示一個對齊區域。所述方法還包括用於在所述多個語句上識別多個可能的混淆區域的操作。通過來自在所述多個對齊區域外部的對應位置處的所述多個語句中的兩個或更多的語句的詞來定義每一個可能的混淆區域。對於每個所述識別的可能混淆區域，執行操作以分析在所述可能的混淆區域內的詞的音標發音，以確定在所述計算事件期間在被語音識別系統可聽地處理時的所述詞之間的混淆概率的度量。所述方法還包括用於產生報告以傳達在所述多個語句上的所述可能混淆區域的標識和它們對應的混淆概率的度量。在另一個實施例中，公開了一種用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的系統。所述系統包括輸入模塊，所述輸入模塊被定義來從語法結構內接收多個語句。所述多個語句的每一個由多個子集形成。所述系統還包括詞級對齊模塊，所述詞級對齊模塊被定義來識別在由所述輸入模塊接收的所述多個語句上的多個對齊區域。對齊區域對應於在所述多個語句上對齊的相同的詞集。所述系統還包括混淆區域識別模塊，所述混淆區域識別模塊被定義來識別在所述多個語句上的多個可能混淆區域。通過來自在由所述詞級對齊模塊識別的所述多個對齊區域外的對應位置處的所述多個語句中的兩個或更多語句的詞來定義每一個可能的混淆區域。所述系統還包括混淆概率分析模塊，所述混淆概率分析模塊被定義來分析在由所述混淆區域識別模塊識別的給定可能混淆區域內的詞的音標發音。所述詞的所述音標發音的分析確定了在所述計算事件期間在被語音識別系統可聽地處理時的、在給定的可能混淆區域內的詞之間的混淆概率的度量。在另一個實施例中，公開了一種計算機可讀介質，其包括用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的程序指令。提供了用於從語法結構內接收多個語句的程序指令。所述多個語句的每一個由多個詞集形成。還提供了通過以在詞集的基礎上對齊所述多個語句來識別在所述多個語句上的多個對齊區域的程序指令。每一個對齊的詞集表示一個對齊區域。還提供了用於識別所述多個語句上多個可能的混淆區域的指令。通過來自在所述多個對齊區域外的對應位置處的所述多個語句中的兩個或更多語句的詞來定義每一個可能的混淆區域。還提供用於下述的程序指令分析在每一個可能的混淆區域內的詞的音標發音，以確定在所述計算事件期間在被語音識別系統可聽地處理時的、在每一個可能的混淆區域內的所述詞之間的混淆概率的度量。通過下面結合附圖的詳細描述，本發明的其他方面將變得更清楚，其中，附圖通過示例圖示本發明。

圖IA示出根據本發明的一個實施例的輸入文本文件的示例；圖IB示出根據本發明的一個實施例的、使用可替代和可變的表示來指定語句而定義的圖IA的輸入文本文件；
圖2示出根據本發明的一個實施例的、與圖IA和IB的輸入文本文件對應的GnD 文件；圖3示出根據本發明的一個實施例的、通過在圖2的&iD文件中定義的兩個語句的語法的路徑網絡；圖4示出根據本發明的一個實施例的語法適合度評估(GFE)過程的操作圖；圖5示出根據本發明的一個實施例的、對通過對於圖2的示例輸入語法執行GFE 而生成的語法適合度報告的示例摘錄；圖6示出根據本發明的一個實施例的、GnD文件的構造及其對應的其語法適合度評估的步驟流程圖；圖7示出根據本發明的一個實施例的、一種用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的計算機實現的方法的流程圖；以及圖8示出根據本發明的一個實施例的、一種用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的系統的框圖。
具體實施例方式在下面的描述中，給出了多個具體細節，以便透徹地理解本發明。然而，很顯然本領域內的技術人員可以在沒有這些具體細節的一些或全部的情況下實施本發明。在其他情況下，未詳細描述公知的過程操作，使得不會不必要地模糊本發明。在一個實施例中，在此公開的方法和系統被實現在索尼PlayStation 語音響應 (PSVR)工具內。PSVR工具被定義來允許應用(即，電腦程式)開發者將在應用執行期間輸入的可聽的語音處理為可以被應用實時識別和根據其起作用的格式。然而，應當明白，在其他實施例中，在此公開的方法和系統可以被實現於在PSVR工具外部的環境中。因此，在此公開的方法和系統不應被解釋為限於在PSVR工具內的使用。語音識別是使得人向計算機說話並且使得計算機識別所說的內容的過程。語音回復軟體可以被定義來提供關於在語音識別期間的過程的恆定信息，使得應用能夠使用該信息來給出其用戶實時的反饋或顯示，諸如動畫的談話的臉部或用戶語音的可視指示。可以通過將有限的詞彙(即，詞典)和語法指定給應用來簡化語音識別。該語法是詞彙的有效組合的集合。換句話說，該語法是應用的一組有效語句(文本句子/短語)。可以在語法和辭典(&Λ)文件中定義語法，該文件包括應用的詞彙的表示，包括詞及其發音；該文件還包括詞之間的關聯，以形成應用的一組有效語句。通過在&iD文件中的有效詞彙的可能路徑被稱為語法網絡。在一個實施例中，諸如PSVR的語音識別系統可以接收作為輸入的、用於指定要用於應用的有效語句的文本文件。應用開發者可以基於需要被語音識別系統識別以便應用適當地響應的語句而建立這個輸入文本文件。圖IA示出根據本發明的一個實施例的輸入文本文件的示例。如圖IA中所示，輸入文本文件可以包括語句的簡單列表。可替代地，輸入文本文件可以使用可替代和可變的表示來指定語句。在一個實施例中，可以在輸入文本文件內提供諸如「 I 」的符號來界定可替代的詞/短語。而且，在一個實施例中，可以使用可變標籤來表示在輸入文本文件內的詞/短語。例如，這種表示${可變標籤} = {詞/短語} 可以用於向可變標籤分配詞/短語。而且，在一個實施例中，輸入文本文件可以使用括號表示用於詞/短語的相關聯的組。圖IB示出根據本發明的一個實施例的、使用替代和可變的表示定義來指定語句的圖IA的輸入文本文件。圖2示出根據本發明的一個實施例的、與圖IA和IB的輸入文本文件對應的GnD 文件。&iD文件定義了在輸入文本文件中的語句的語法。&iD文件包括在語法中的詞集、詞集的發音和用於形成有效語句的詞集的關聯。在圖2的示例中，每一個詞集被包括在引號 (「」)中。詞集被匯集為組，並且在組之間的關聯被(== >符號)指定來定義可能的語句。在組之間的連結定義了通過在&iD文件中的語法的可能路徑。例如，圖3示出根據本發明的一個實施例的、通過在圖2的&iD文件中定義的兩個語句的語法的路徑網絡。在語音識別過程中，語法和詞典組合地工作以提供語法網絡。語音識別工具在識別處理期間穿過這個語法網絡。當語法網絡變得更複雜和/或產生混淆時，這個語音識別處理變得更困難和/或不準確。期望將文件的語法網絡的混淆減小或消除到最大的可能程度，以保證在應用執行期間的適當的語音識別結果。為此，有必要識別在&iD文件內的語法的可能混淆的部分。語法的可能混淆的部分的識別和測量被稱為語法適合度評估或語法質量評估。在自動語音識別中，識別假設是當聲音信號穿過由語法或語音模型允許的路徑時一組分數累積的結果。在子詞彙的語音識別(基於比詞更短的單元諸如音素的語音識別) 中，通過表示詞和句子的語音序列來建立由語法允許的這些路徑。很「接近」的一組路徑比在其之間具有清楚和明顯差別的一組路徑更容易被混淆。在圖3中描述的路徑示出通過語法的接近的路徑的示例。更具體地，通過單個詞的差別來使圖3的兩個路徑分開，其中，構成路徑之間的差別的詞具有類似的音素，即，類似的語音發音。在語法內的一條路徑和另一條路徑之間的接近度可以根據在路徑之間的音差的數量、位置和幅度而改變。即，在語法內的路徑之間的識別距離隨構成路徑的方式和在每條路徑的分量之間的聲音類似度而變化。通過測量在語法內的路徑之間的識別距離，可以對可能彼此衝突並且引起語音識別錯誤的語音序列它們之間的「接近度」進行估計。語法適合度評估是對應用的語法內的所有語句(和基本的語音路徑)的識別距離的評估。這個語法適合度評估可以為應用的語法設計過程中反饋機制的一部分，旨在減少應用的執行期間的語音識別錯誤出現的數量和頻率。圖4示出根據本發明的一個實施例的、語法適合度評估(GFE)過程的操作圖。在該GFE過程，輸入語法401被產生並且作為輸入被提供到GFE模塊403。在一個實施例中，以諸如在圖2中示例的&iD文件的形式來提供輸入語法401。在其他實施例中，可以以其他格式提供輸入語法401，只要GFE模塊403理解輸入語法401的格式，並且只要輸入語法 401指定詞/詞集的有效組合以形成旨在被諸如PSVR系統的語音識別系統識別的語句。一旦GFE模塊403接收到輸入語法401，執行語句擴展過程405以從輸入語法401 提取所有的有效語句。換句話說，語句擴展處理405明確地產生由輸入語法401允許的所有語句。通過定義，語法是對於給定的應用有效的一組語句的合成的表示。語句擴展處理 405被執行來使得能夠分析每一個語句的構成，並且使得能夠估計在語句之間的識別距離。應當明白，輸入語法401被完全地擴展到其有效的語句集內，以避免忽略可能在全文考慮時看起來不同但是在語音上類似的詞或語句之間出現的可能的混淆。從語句擴展過程405 得到的有效語句集是隨後的GFE的基礎。
通過將每一個詞替換為來自輸入語法401的詞典的其對應的發音，語句中的詞可以被轉換為語音序列。一些詞可能具有不止一個發音。因此，一個單個詞語句可以產生多個語音序列。根據在給定語句中的詞的特性和發音的數量，將每一個詞替換為其對應的發音的操作可以產生多個語音序列。應當注意，語句的語音序列是與自動語音識別器將使用來與語音輸入作比較以便區別在語音信號中包括的音素相同的語音序列。在對於在語句中的一個或多個詞可獲得多個語音序列的情況下，可以以樹結構來組織多個語音序列。在一個實施例中，樹結構也可以用於為探索不同的語音序列提供更多的結構。但是為了簡單和清楚，在此的描述假定所有的語音序列被明確地表示。因此，在語句擴展過程405中，當在給定的語句中的一個或多個詞具有不止一個發音時，可能產生給定的語句的多種情況，給定的語句的每一種情況對應於給定語句的唯一語音發音。在GFE中，確定哪些語句可能被混淆可能是不夠的。還需要確定這種混淆的原因，並且如果要採取行動來避免混淆，還要確定對哪些內容採取這些行動。為此，GFE包括詞級對齊過程(Word-Level Alignment Process)407和語音類似度評估409。對於從語句擴展過程405產生的有效語句集執行詞級對齊過程407。詞級對齊過程407識別在輸入語法401 中的可能容易混淆的語句。語音類似度評估409識別在由詞級對齊過程407識別的可能容易混淆的語句內的可能混淆的源。因此，詞級對齊過程407可以被看作混淆檢測操作，並且語音類似度評估409可以被看作對由混淆檢測操作闡明的容易混淆的區域內的變焦(zooming)操作。在下面，圖4 示出語音類似度評估409，語音類似度評估409取決於詞級對齊處理407，即被圖形地布置在詞級對齊過程407內。應當明白，作為用於隨後的語音類似度評估409的聚焦機制的詞級對齊過程407的實現減少了比較在全部語句上大量語音序列的計算負擔，其中每個語句可以包括多個音素。詞級對齊過程407包括將從輸入語法401提取的每一個語句與從輸入語法401 提取的所有其他語句作比較。詞級對齊過程407將兩個不同的符號序列、即兩個不同的語句作比較，並且根據某種預定義的距離度量來匹配它們。在一個實施例中，所比較的符號對應於在所比較的語句內的詞集。在一個實施例中，用於語句的比較的詞集是在輸入語法401 內的分組中定義的詞集。應當明白，在該情況下的詞集可以包括一個或多個詞。當一個詞集包括多個詞時，該多個詞在輸入語法401中一致地一起出現。在一個實施例中，詞級對齊過程407被實現為動態編程過程。在這個實施例中，以下述代價來驅動詞級對齊過程407 將一個語句的一個符號、即詞集替換為來自另一個語句的符號，即詞集。根據語句的構造，可以有在兩個或更多的語句上對齊詞集(符號)的多種方式。在一個實施例中，詞級對齊過程407確定語句的「最佳」對齊，其中，語句的最佳對齊對應於在對齊語句中的最低總替換代價。在一個實施例中，對輸入語法401中的所有語句執行詞級對齊過程407，一次兩個語句。對於給定的一對語句執行詞級對齊過程407將產生該給定的一對語句的對齊序列。該對齊序列對所考慮的兩個語句的元素(詞集)進行組合，並且報告在語句的元素之間發現的那類匹配。對齊序列特徵在於HIT(匹配元素)、SUBS(元素的替代)、INS(元素的插入)和DEL(元素的刪除)的單元。再一次，在詞級對齊過程407中，僅考慮詞集對齊序列。詞集對齊序列示出兩個語句中的詞集在其中相同或不同的區域。
通過下面的示例來圖示詞級對齊過程407和結果產生的詞集對齊序列。第一語句_BEGIN_You Like to Dress up_END_第二語句_BEGIN_You Love to Dress up_END_結果產生的詞集對齊序列You:HIT，Loveto — Like to:SUBS, Dress up:HIT在上面的示例中的結果產生的詞集對齊序列可以以對齊區域和可能的混淆區域為特徵。具體地說，每一個HIT (匹配元素)表示對齊區域，並且除了 HIT之外的任何單元，即SUBS、INS、DEL，表示可能的混淆區域。上面的對齊序列可以被劃分為三個區。第一區是在每一個語句中包括詞集的對齊區域。第二地區是包括在第一語句中的詞集like to 和在第二語句中的詞集love to的可能混淆區域。第三區是包括在每一個語句中的詞集 Dress up的對齊區域。兩個語句之間的距離隨語句中的詞彼此對齊的方式而變化。因此，兩個相同的語句具有0的分隔距離，並且結果產生的對齊序列僅包括一個對齊區域。而且，遠離的兩個語句將不包括任何對齊區域，並且結果產生的對齊序列包括一個長的可能混淆區域。優化的語法應儘可能避免包括接近的語句路徑，而是應包括充分地分開的語句路徑以避免在其被用於語音識別時產生錯誤。為了語音識別的目的，兩個相同的詞語句不會造成識別錯誤。用於相同，它們之間沒有混淆。因此，確定識別錯誤可能出現在輸入語法401中何處的過程，S卩，GFE，不限於識別在語句之間的對齊區域。而是，GFE涉及確定在輸入語法401中的語句是否太接近但卻不同，並且如果它們太接近，則確定在語句之間的可能混淆區域中的詞有多大可能會產生語音識別錯誤。因此，對於在詞級對齊過程407中在語句之間識別的可能的混淆區域執行語音類似度評估409，以提供語句在可能的混淆區域內接近度的度量，由此告知關於語句是否可能引發語音識別錯誤的確定。在語音類似度評估409中，通過將在可能混淆區域中的詞替換為它們的對應的音標，從詞級對齊處理407產生的每一個可能混淆區域被轉換為語音序列。對於每一個可能混淆區域，語音類似度評估409包括1)將在可能混淆區域中的每一個語句的詞擴展到它們的對應的音素，幻確定在可能混淆區域內的語句之間的音素的最佳對齊，以及，幻基於音素的最佳對齊，計算在可能混淆區域內的相應語句中的、詞即其音素之間的混淆概率的度量。與詞級對齊過程407 —樣，在一個實施例中，語音類似度評估409的音素級對齊被實現為動態編程過程。在這個實施例中，以下述代價來驅動音素級對齊將(在可能混淆區域內的)一個語句的一個音素替換為來自(在同一可能混淆區域內的)另一個語句的音素。音素級對齊確定在可能混淆區域內的音素的「最佳」對齊，其中，音素的最佳對齊對應於在可能混淆區域內對齊音素中的最低的總替換成本。參考如上所述的前一個示例，考慮可能混淆區域，該可能混淆區域包括在第一語句內的詞集like和在第二語句中的詞集love to。在可能混淆區域內的兩個語句中的詞的音素擴展如下第一語句/第一可能混淆區域1 ay k—t uw第二語句/第一可能混淆區域1 ah ν—t uw在可能混淆區域內的語句之間的音素的最佳對齊的特徵由下述結果產生的音素級對齊序列表示1:HIT, ah — ay:SUBS, ν — k:SUBS, t:HIT, uw:HIT在一個實施例中，在兩個語音對齊之間的混淆的概率的度量，即距離，被表示為根
據等式1計算的加權語音對齊精度(WPA)值。
TTrnA# HIT—# INS j\ Hiax(Z1J2))
「00541 WPA=XQO*-* 1--蔦式 1
隣4」#HIT+#SUBS+#DEL Iv max(Z15Z2)丄如在等式1中所示，加權語音對齊精度(WPA)是上界為100的度量(完美的精度表示音素序列是相同的)。而且，如果音素插入的數量(#INS)大於音素匹配的數量(#HIT)，則加權語音對齊精度(WPA)的下界可以是負的。在等式1中，1- HlJ;)、是基於其中進行分析的詞序列的字符長度來將加權
語音對齊精度(WPA)向上或向下加權的比例因子。參數L1指的是在分析中的整個第一語句的字符長度。參數L2指的是在分析中的整個第二語句的字符長度。參數I1指的是在第一語句內所考慮的可能混淆區域內的字符長度。參數I2指的是在第二語句內的所考慮的可能混淆區域內的字符長度。在一個實施例中，字符長度包括在語句區域的詞內的文本字符的數量和在語句區域內的詞之間的空格。而且，在一個實施例中，當語句擴展過程405封裝在諸如_BEGIN_和_END的_開始和結束標記中每一個語句時，整個語句的字符長度包括在開始和結束標記內的文本字符的數量和在語句文本的方向上的它們各自的相鄰空格。因為語音類似度評估409至少涉及兩個語句，所以使用相應的字符長度參數 (Maxd1, I2) ^P max (L1, L2))的最大值來計算比例因子。應當明白，比例因子用於基於相對於整個語句的大小的可能混淆區域的大小來向加權語音對齊精度(WPA)提供加權。當可能混淆區域的大小相對於語句的大小減小時，比例因子增大。因此，當可能混淆區域的大小相對於語句的大小減小時，加權語音對齊精度(WPA)值變大。而且，應當明白，較大的加權語音對齊精度(WPA)值對應於在可能混淆區域內的語句部分之間的較高類似度，即，增大的接近度/縮小的距離。參考如上所述的示例，音素級對齊序列(1 HIT，ah — ay SUBS, ν — k: SUBS，t:HIT， uw:HIT)提供了下述用於加權語音對齊精度(WPA)計算的參數#HIT = 3,#INS = 0,#SUBS =2，#DEL = 0，max (I1, I2) = 7，max (L1, L2) = 34。相應的加權語音對齊精度(WPA)被計算為47. 65。可以對加權語音對齊精度(WPA)值進行閾值操作以便專注於具有較高類似性並且相應的在語音識別處理期間具有更大可能性引起錯誤的可能混淆區域。具有比預定義的閾值高的加權語音對齊精度(WPA)值的可能混淆區域可以被選擇性地報告為在輸入語法 401中的修改或抑制的候選者，以便減小在輸入語法401中的整體容易混淆度，並且相應地減小語音識別錯誤的風險。在其他實施例中，與由等式1所提供的不同的技術可以用於評估混淆概率的度量，即在可能混淆區域內的兩個語音對齊之間的距離。然而，任何不同的技術應當提供在所識別的可能混淆區域內的語句部分之間的類似度的量化評估，從而能夠有在語法內的可能混淆區域的就其在語音識別處理期間引起混淆或錯誤而言相對分類。
應當注意，在給定的輸入語法401中，由詞級對齊處理407識別的可能混淆區域可能不與唯一的一對語句相關。換句話說，以其詞集內容為特徵的給定的可能混淆區域可能在輸入語法401內的不同對的語句上出現多次。因此，在輸入語法401內的不同語句的詞集對齊可以產生相同的可能混淆區域，並且因此產生相同的語音對齊。不必重複對相同的可能混淆區域的分析。而是可以存儲這些復發的可能混淆區域的加權語音對齊精度(WPA) 值，僅在每次可能混淆區域在輸入語法401內的任何一對語句上重發時，檢索這些值即可。應當明白，僅因為詞是類似的，並不一定表示詞將在語音識別處理期間引起混淆。類似的詞如果它們出現在類似的上下文中或出現在輸入語法401內的同一分支點內則可能引起混淆。然而，如果類似的詞出現在十分不同的上下文中或輸入語法401內的不同分支點內，則類似的詞可以在語音識別處理期間不引起任何混淆。例如，考慮下面的兩個語句第一語句_BEGIN_Boy，I am a smart robot_END_第二語句_BEGIN_I am a smart toy_END_結果產生的詞級對齊序列Boy，:DEL,I:HIT, am:HIT, a:HIT, smart:HIT, robot — toy: SUBS在這個示例中，詞Boy和toy類似，但是不會引起混淆，因為它們出現在不同的上下文中並且沒有出現在語法中的同一分支點處。在這個示例中，有兩個可能混淆區域，一個在對齊序列的開始處，一個在對齊序列的結尾處。從這個結果得出應當在robot和toy之間進行音級的比較，因為它們出現在類似的上下文中並且它們共享在語法中的相同詞幹。如上所述，在一個實施例中，可以基於在可能混淆區域內的不同語句內的音素是否是相同的或不同的來執行語音類似度評估409。在另一個實施例中，語音類似度評估409 可以考慮關於被比較的音素的特性的更多信息。例如，可以向在音素/m/和/n/之間的可能混淆提供比在/m/和/i/之間的可能混淆更大的加權。可以向更經常地被混淆的音素分配更高的加權，更經常被混淆的音素例如是可以是在兩個詞之間的唯一區分者的相似的聲音音素。例如，考慮在一對詞「norm」和「morn」中的音素/m/和M0參考回圖4，語音距離矩陣411可以被提供為用於執行語音類似度評估409的輸入源。在一個實施例中，語音距離矩陣411基於混淆矩陣(識別後的距離度量)或基於在每個音素的聲音模型之間的相對距離(識別前的距離度量)。混淆矩陣的內容取決於用於進行現場語音識別測試的數據和識別設置。基於聲音模型的音素距離度量在現場語音識別之前被計算，並且表示替換基於符號的音素比較，以使得能夠進一步改善在詞之間考慮的語音距離。進一步參考圖4，可以將GFE的結果傳達到語法適合度報告413中。語法適合度報告413可以被格式化以傳送在輸入語法401的語句上的可能混淆區域的標識(identity) 和它們對應的混淆概率的度量，即它們的所計算的加權語音對齊精度(WPA)值。可以根據加權語音對齊精度(WPA)整理出語法適合度報告413中的可能混淆區域的標識。圖5示出根據本發明的一個實施例的、來自通過對於圖2的示例輸入語法執行GFE而產生的語法適合度報告的示例摘錄。在語法適合度報告中，可以有被標記為傾向於引起識別錯誤的若干個詞，因為所有那些詞都是可能混淆區域內詞集的一部分，正如在圖5中的第一對like to 對love to的情況。
較高的加權語音對齊精度(WPA)值可以表示在對應的可能混淆區域中的詞的發音彼此很接近，儘管它們可以是不同的詞，並且這可以指示可能的語音識別錯誤。為此，在語法適合度報告413中具有較高加權語音對齊精度(WPA)值的可能混淆區域被列為頭條。可能混淆區域的上下文也被包括在語法適合度報告413中，以使得語法適合度報告413的查看者能夠更容易地定位在語法中的可能語音識別錯誤的來源。由在此公開的語法適合度評估(GFE)產生的語法適合度結果可以用於修改語音識別語法以便減少語音識別錯誤。在一個實施例中，語法適合度結果可以用於自動地校正語法，而不用沒有語法開發者的監督。在另一個實施例中，語法適合度結果被用於手動地校正語法。更具體地，參考圖4，語法適合度報告413被提供來用於輸入語法401的手動或自動校正過程415中。基於語法適合度報告413，手動或自動校正處理415產生語法417的優化版本，其中，在輸入語法401內的語句引起混淆的部分被消除或抑制。應當明白和理解，在此描述的語法適合度評估的執行不使用任何語音信號(表示可聽的聲音/語音的數字數據)。也應當明白和理解，在此描述的語法適合度評估的執行是基於語法的結構。上述幾點有益在於語法適合度評估允許語法編輯和校正的處理更接近語法的生成過程，而不需要實際的語音識別試驗。還應當明白，語法適合度評估可以被用作過程中的反饋機制，以產生&iD文件。圖6示出根據本發明的一個實施例的、構造&iD文件及其對應的語法適合度評估的的流程圖。可以通過下述方式來開始該處理向被表示為psvr&iD可執行文件601的語法構造/評估工具提供純文本文件605 (例如，圖1A-1B)或&iD文件603 (例如，圖2)作為輸入。純文本文件605和&iD文件603的每一個被定義來指定在語法內的語句。向語法構造/評估工具601提供輔助文件，以支持發音產生。具體地說，一個或多個字母至音素(G2P)數據文件607被提供到語法構造/評估工具601。G2P數據文件607 將字的字母(字符)與它們的發音的音素匹配。這使得語法構造/評估工具601能夠基於詞的拼寫來產生詞的發音。而且，一個或多個發音詞典609被提供到語法構造/評估工具 601。發音詞典609包括特定的一組詞的發音，諸如難以使用G2P數據文件607處理的常用詞。語法構造/評估工具601通過從文本採樣自動地提取詞之間構成語句的關係來執行語法的產生。語法構造/評估工具601可以以下述作為輸入的純文本語句或以特殊方式格式化、以允許通過可變的陳述和詞的替換來實現句子的合成的表示的語句。語法構造 /評估工具601也可以通過使用在發音詞典609中的查找表或通過使用G2P數據文件607 執行字母向音素轉換來執行發音產生。在G2P轉換過程中，語法構造/評估工具601以詞作為輸入並且自動地產生在目標語言中的其發音。在完成語法和發音的產生後，語法構造/評估工具601將語法和發音彙編在一起，並且將該結果格式化為&iD文件611。這個輸出也可以包括其他信息，諸如轉換概率和語言標識符。語法構造/評估工具601也被定義來執行參考圖4上述的語法適合度評估。語法適合度評估的結果被寫入適合度報告613。在適合度報告613內的信息可以用於編輯/ 改善原來輸入的文本文件605或新產生的&iD文件611。然後，可以重複該處理以看編輯/ 改善是否已經提高了語法的適合度。可以重複地運行該處理，直到語法和詞典適合於用在語音識別過程中。
圖7示出根據本發明的一個實施例的、一種計算機實現的方法的流程圖，該方法用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆。該方法包括用於從在語法結構內接收多個語句的操作701。多個語句的每一個由多個詞集形成。每一個詞集可以包括一個或多個詞。該方法也包括用於通過在詞集的基礎上對齊多個語句來識別在多個語句上的多個對齊區域的操作703。每一個對齊的詞集表示一個對齊區域。在一個實施例中，操作703包括確定對多個語句上相同詞集的最佳的整體對齊。在一個實施例中，當在多個語句上識別的對齊區域的數量是0時，結束在該計算機實現的方法內的多個語句的處理。而且，在一個實施例中，當多個語句彼此相同時，結束在計算機實現的方法內的多個語句的處理。該方法進一步包括用於識別多個語句上的多個可能混淆區域的操作705。通過來自在多個對齊區域之外的對應的位置處的多個語句中的兩個或更多的語句的詞定義每一個可能混淆區域。對於每一個識別的可能混淆區域，執行操作707來分析在可能混淆區域內的詞的語音發音，以確定在當在計算事件期間被語音識別系統可聽地處理的詞之間的混淆概率的度量。在一個實施例中，操作707包括在可能混淆區域內的多個語句的詞的音素間執行音素級對齊。音素是語言的聲音系統的最小區分單位。在一個實例中，執行音素級對齊包括確定在多個語句上的可能混淆區域內的詞的相同音素的最佳整體對齊。而且，在這個實施例中，操作707包括基於音素級對齊來計算可能混淆區域的語音精度值。語音精度值對應於在當在計算事件期間被語音識別系統可聽地處理的、在可能混淆區域內的多個語句的詞之間的混淆概率的度量。所述方法也包括操作709，用於產生報告以傳達在多個語句上的可能混淆區域的標識和它們的混淆概率的對應的度量。在一個實施例中，在產生報告時應用混淆概率閾值，使得僅那些其混淆概率的度量大於或等於混淆概率閾值的可能混淆區域才會在報告中標識。應當明白，圖7的計算機實現的方法的執行沒有聽覺的輸入。圖8示出根據本發明的一個實施例的、一種用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的系統。系統800包括輸入模塊801，輸入模塊801被定義來從語法結構內接收多個語句。多個語句的每一個由多個詞集形成。每一個詞集包括一個或多個詞。系統800也包括詞集對齊模塊803，詞集對齊模塊803被定義來識別在由輸入模塊 801接收的多個語句上的多個對齊區域。對齊區域對應於在多個語句上對齊的相同詞集。在一個實施例中，詞級對齊模塊803被定義來確定在多個語句上的相同的詞集的最佳的整體對齊。系統800還包括混淆區域識別模塊805，混淆區域識別模塊805被定義來識別在多個語句上的多個可能混淆區域。通過來自在由詞級對齊模塊803識別的多個對齊區域外部的對應的位置處的多個語句的兩個或更多的語句中的詞來定義每一個可能混淆區域。系統800還包括混淆概率分析模塊807，以確定當在計算事件期間被語音識別系統可聽地處理時的、在給定可能混淆區域內的詞之間的混淆概率的度量，其中，混淆概率分析模塊807被定義來分析在由混淆區域識別模塊805識別的給定可能混淆區域內的詞的語音發音。在一個實施例中，混淆概率分析模塊807被定義來在給定的可能混淆區域內的多個語句的詞的音素上執行音素級對齊。在這個實施例的一個實例中，混淆概率分析模塊 807被定義來確定當執行音素級對齊時在多個語句上的給定可能混淆區域內的詞的相同音素的最佳整體對齊。而且，在這個實施例中，混淆概率分析模塊807被定義來基於音素級對齊來計算語音精度。語音精度值對應於當在計算事件期間被語音識別系統可聽地處理時的、在給定的可能混淆區域內的詞之間的混淆概率的度量。系統800還包括輸出模塊809，輸出模塊809被定義來產生報告以傳達在多個語句上的可能混淆區域的標識和它們的混淆概率的對應的度量。在一個實施例中，輸出模塊809 被定義來應用混淆概率閾值以產生報告，使得僅那些其混淆概率的度量大於或等於混淆閾值的可能混淆區域才會被在報告中標出。可以使用各種計算機系統配置來實施本發明的實施例，該各種計算機系統配置包括手持裝置、微處理器系統、基於微處理器或可編程的消費者電子裝置、微計算機和大型計算機等。也可以在其中由通過網絡連結的遠程處理裝置執行任務的分布式計算環境中實施本發明。基於上面的實施例，應當明白，本發明可以使用涉及存儲在在計算機系統中的數據的各種計算機實現的操作。這些操作是要求物理量的物理操縱的那些。形成本發明的一部分的在此所述的任何操作為有用的的機器操作。本發明也涉及用於執行這些操作的裝置或設備。所述設備可以被特殊構造來用於所要求的目的，諸如專用計算機。當被定義為專用計算機時，計算機也可以執行不作為專用目的的一部分的其他處理、程序執行或例程，同時仍然能夠操作來用於專用目的。替代地，可以通過由在計算機存儲器、高速緩存中存儲的或通過網絡獲得的一個或多個電腦程式選擇性地啟動或配置的通用計算機來處理該操作。當通過網絡來獲得數據時，該數據可以被諸如計算資源的雲這類在網絡上的其他計算機處理。本發明的實施例也可以被定義為將數據從一個狀態向另一個狀態轉換的機器。所轉換的數據可以被存儲到存儲器，然後被處理器操縱。處理器因此執行將數據從一個事物向另一個事物轉換。而且，可以通過經由網絡連接的一個或多個機器或處理器來處理該方法。每一個機器可以將數據從一個狀態或事物向另一個轉換，並且還可以處理數據、向存儲器存儲數據、通過網絡發送數據、顯示結果或向另一個機器發送結果。本發明也可以被體現為在計算機可讀介質上的計算機可讀代碼。計算機可讀介質是可以存儲數據的任何數據存儲裝置，該數據其後可以被計算機系統讀取。計算機可讀介質的示例包括硬碟驅動器、網絡附接的存儲器(NAQ、只讀存儲器、隨機存取存儲器、 ⑶-ROM、⑶-R、⑶-RW、磁帶和其他光學和非光學數據存儲器。計算機可讀介質可以包括分布在網絡耦合的計算機系統上的計算機可讀有形介質，使得以分布的方式來存儲和執行計算機可讀代碼。雖然以特定的順序描述了方法操作，但是應當明白，可以在操作之間執行其他內務操作，或可以調整操作使得它們在略微不同的時間發生，或可以被分布在允許處理操作在與該處理相關聯的各個間隔處發生的系統上，只要以期望的方式來執行覆蓋操作的處理。雖然已經為了理解清楚而以一定的細節描述了上面的發明，但是顯然，可以在所附的權利要求的範圍內實施特定的改變和修改。因此，本實施例應當被當作說明性和非限定性的，並且本發明不限於在此給出的細節，而是可以在所附的權利要求的範圍和等同內容內被修改。
權利要求
1.一種計算機實現的方法，用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆，包括從語法結構內接收多個語句，所述多個語句的每一個由多個詞集形成；通過在詞集的基礎上對齊所述多個語句來識別在所述多個語句上的多個對齊區域，其中，每一個對齊的詞集表示一個對齊區域；識別所述多個語句上的多個可能的混淆區域，其中，通過來自在所述多個對齊區域外的對應位置處的所述多個語句中的兩個或更多語句的詞來定義每一個可能的混淆區域；對於每個所述識別的可能混淆區域，分析在所述可能的混淆區域內的詞的音標發音，以確定在所述計算事件期間在被語音識別系統可聽地處理時的所述詞之間的混淆概率的度量；以及產生報告以傳達在所述多個語句上的所述可能混淆區域的標識和它們對應的混淆概率的度量。
2.根據權利要求1所述的計算機實現的方法，其中，執行所述計算機實現的方法而沒有可聽的輸入。
3.根據權利要求1所述的計算機實現的方法，其中，每一個詞集包括一個或多個詞。
4.根據權利要求1所述的計算機實現的方法，其中，識別在所述多個語句上的所述多個對齊區域包括確定在所述多個語句上的相同詞集的最佳整體對齊。
5.根據權利要求1所述的計算機實現的方法，其中，分析在所述可能混淆區域內的所述詞的語音發音包括在所述可能混淆區域內的所述多個語句的所述詞的音素上執行音素級對齊，以及基於所述音素級對齊來計算所述可能混淆區域的語音精度值，其中，所述音素精度值對應於當在所述計算事件期間被所述語音識別系統可聽地處理時的、在所述可能混淆區域內的所述多個語句的所述詞之間的混淆概率的所述度量。
6.根據權利要求5所述的計算機實現的方法，其中，音素是語言的聲音系統的最小區分單位。
7.根據權利要求6所述的計算機實現的方法，其中，執行所述音素級對齊包括確定在所述多個語句上的所述可能混淆區域內的所述詞的相同音素的所述最佳整體對齊。
8.根據權利要求1所述的計算機實現的方法，進一步包括當產生所述報告時應用混淆概率閾值，使得僅在所述報告中標識出其混淆概率的度量大於或等於所述混淆概率閾值的可能混淆區域。
9.根據權利要求1所述的計算機實現的方法，進一步包括當在所述多個語句上識別的對齊區域的數量是0時，結束在所述計算機實現的方法中的所述多個語句的處理。
10.根據權利要求1所述的計算機實現的方法，進一步包括當所述多個語句彼此相同時，結束在所述計算機實現的方法內的所述多個語句的處理。
11.一種用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的系統，包括輸入模塊，所述輸入模塊被定義來從語法結構內接收多個語句，所述多個語句的每一個由多個詞集形成；詞級對齊模塊，所述詞級對齊模塊被定義來識別在由所述輸入模塊接收的所述多個語句上的多個對齊區域，其中，對齊區域對應於在所述多個語句上對齊的相同的詞集；混淆區域識別模塊，所述混淆區域識別模塊被定義來識別在所述多個語句上的多個可能混淆區域，其中，通過來自在由所述詞級對齊模塊識別的所述多個對齊區域外的對應位置處的所述多個語句中的兩個或更多語句的詞來定義每一個可能的混淆區域；以及混淆概率分析模塊，所述混淆概率分析模塊被定義來分析在由所述混淆區域識別模塊識別的給定可能混淆區域內的詞的音標發音，以確定在所述計算事件期間在被語音識別系統可聽地處理時的、在給定的可能混淆區域內的詞之間的混淆概率的度量。
12.根據權利要求11所述的系統，其中，每一個詞集包括一個或多個詞。
13.根據權利要求11所述的系統，其中，所述詞集對齊模塊被定義來確定在所述多個語句上的相同的詞集的最佳整體對齊。
14.根據權利要求11所述的系統，其中，所述混淆概率分析模塊被定義來執行在所述給定的可能混淆區域內的所述多個語句的所述詞的音素上的音素級對齊，以及基於所述音素級對齊來計算所述可能混淆區域的語音精度值，其中，所述音素精度值對應於當在所述計算事件期間被所述語音識別系統可聽地處理時的、在所述給定可能混淆區域內的所述多個語句的所述詞之間的混淆概率的所述度量。
15.根據權利要求14所述的系統，其中，音素是語言的聲音系統的最小區分單位。
16.根據權利要求15所述的系統，其中，所述混淆概率分析模塊被定義來當執行所述音素級對齊時確定在所述多個語句上的所述給定可能混淆區域內的所述詞的相同音素的所述最佳整體對齊。
17.根據權利要求11所述的系統，進一步包括輸出模塊，其被定義來產生報告以傳達在所述多個語句上的所述可能混淆區域的標識和它們對應的混淆概率的度量。
18.根據權利要求17所述的系統，其中，所述輸出模塊被定義來應用混淆概率閾值以產生所述報告，使得僅在所述報告中標識出其混淆概率的度量大於或等於所述混淆概率閾值的可能混淆區域。
19.一種計算機可讀介質，其包括用於在計算事件期間評估在要在語音識別中使用的一組語句的語法結構內的可能混淆的程序指令，包括用於從語法結構內接收多個語句的程序指令，其中，所述多個語句的每一個由多個詞集形成；用於通過在詞集的基礎上對齊所述多個語句來識別在所述多個語句上的多個對齊區域的程序指令，其中，每一個對齊的詞集表示一個對齊區域；用於識別所述多個語句上的多個可能的混淆區域的程序指令，其中，通過來自在所述多個對齊區域外的對應位置處的所述多個語句中的兩個或更多語句的詞來定義每一個可能的混淆區域；用於下述動作的程序指令分析在每一個可能的混淆區域內的詞的音標發音，以確定在所述計算事件期間在被語音識別系統可聽地處理時的、在每一個可能的混淆區域內的所述詞之間的混淆概率的度量。
20.根據權利要求19所述的計算機可讀介質，還包括用於產生報告以傳達在所述多個語句上的所述可能混淆區域的標識和它們對應的混淆概率的度量的程序指令。
全文摘要
作為語音識別錯誤預測器的用於語法適合度評估的方法和系統，從語法結構內接收多個語句。多個語句的每一個由多個詞集形成。通過在詞集的基礎上對齊多個語句來識別在多個語句上的多個對齊區域。每一個對齊的詞集表示一個對齊區域。在多個語句上識別多個可能的混淆區域。通過來自在對齊區域外部的對應位置處的語句的兩個或更多的詞來定義每一個可能的混淆區域。對於每個識別的可能混淆區域，分析在可能的混淆區域內的詞的語音發音，以確定在計算事件期間在被語音識別系統可聽地處理時的詞之間的混淆概率的度量。報告在多個語句上的可能混淆區域的標識和它們對應的混淆概率的度量，以方便語法結構改善。
文檔編號G10L15/26GK102243871SQ20111012592
公開日2011年11月16日申請日期2011年5月16日優先權日2010年5月14日
發明者G·A·赫納德茲-阿伯萊格申請人:索尼計算機娛樂公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

作為語音識別錯誤預測器的用於語法適合度評估的方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法