話音撥號的方法和系統的製作方法

2023-08-10 05:53:36 1

專利名稱：話音撥號的方法和系統的製作方法
技術領域：
本發明涉及一種用於語音識別，具體是當輸入命令給行動電話時使用，例如話音撥號的方法和系統。
本發明和現有技術的背景在語音識別系統中，主要目的是使機器理解談話人的發言。因此，通過允許從語音直接輸入命令，文本和數據到機器，將語音識別用於簡化人-機接口(MMI)。
在語音識別中，計算機的任務是將聲音輸入信號變換成文本，即所謂的轉譯。對於同一個詞，取決於講話人的性別、年齡、方言等，輸入信號的特性在很寬的範圍內變化。而且，如果同時幾個詞進入該系統，例如，如果將一個整句提供給該語音識別系統，取決於在當前詞的前和/或後的詞，不同詞的發音可以是不同的。
並且，噪聲和回波效應的存在可以將進入語音識別系統之前的原始信號畸變。
一般，可將語音識別系統劃分成兩個主要組-ⅰ)談話者獨立系統和-ⅱ)談話者從屬系統談話者獨立系統，具體是為大詞彙量和接收在不同詞之間無停頓的語音，也就是句子或其部分而設計的系統，需要使用大的語音資料庫並使用語音與詞的不同統計性質。也可將文法規則和可能說什麼的預測併入這樣的系統。
另一方面，談話者從屬系統，具體是使用有限的詞彙(典型情況下是幾百個詞)和一次只說一個詞的系統，並不需要任何大的資料庫。不同的是，這樣的系統需要利用該系統訓練特定的談話者，或者，在某些情況下若干個談話者。
談話者從屬語音識別系統當然由於若干理由與談話者獨立系統相比將提供更好的性能。例如，詞的數量是有限的，系統還具有一個特定的詞應該如何發聲的精確知識，因為該系統已被使用此系統的特定的人訓練過。
然而，談話者從屬系統只可能用於有限的應用範圍。談話者從屬系統優於談話者獨立系統的一種應用，例如，是輸入命令給機器。
在這樣一種情況下，語音識別系統的任務是將口頭給出的命令轉譯為可被機器理解的形式，通常也就是二進位字，用於控制機器。例如，可將像「進行」，「停止」，「左」，「右」，「是」，「否」等命令用口頭方式給機器，然後機器進行相應的動作。
然而，儘管機器必須識別的可能詞數是有限的，典型情況下是幾百個詞，儘管機器的語音識別系統已被使用者的話音訓練過，因而它具有當由該特定使用者談話時，一個特定的詞如何發聲的精確知識，作出錯誤判決的許多可能的來源仍然是存在的。
因此，在環境中的噪聲和回波效應將使進入語音識別系統的信號畸變，同一個詞的頻譜也將一次一次地經受小的變化，特別是如果談話者患感冒等。
另一個問題是詞數，儘管典型情況下是限於幾百個，仍需要非常大量的處理能力。在一個典型的語音識別系統中，將樣率是每秒8000個樣本，每個樣本由大約13位組成。這導致一個典型的詞在典型情況下持續1秒鐘，由大約100000位組成。
因此，在一個存在實時約束的系統中，例如，需要響應時間為1秒或更少，語音識別系統必須能夠非常快地處理包含在每個詞中的大量信息。
而且，當詞數增加時，系統上的計算負荷增加得很厲害。這是由於許多不同的原因。這樣，當試圖確定說的是哪個詞或哪個命令時，系統必須搜索更大量的詞。當詞/命令的數量增加時，給的命令具有與另一個命令相似的特性的風險也增加。為了避免誤判決，系統必須從不同的詞提取更多的特徵，以便以所要的概率作出正確的判決，最後，如果詞數增加，系統將一個不存在的命令解釋為一個命令的概率也增加，也就是，詞彙外排斥(OVR)功能的性能下降。
在被設計或在不同條件下運行的系統中，例如包括一個話音控制撥號系統(VCD)(也就是具有用於接收口頭命令的裝置)的行動電話，可以用在汽車中，在大多數情況下，現有的語音識別系統的準確度太低。
在US 5 386 494中描述了一種利用語音識別輸入命令的系統。在US 5 386 494中所描述的系統在屏幕上顯示許多不同的圖符。通過選擇某個圖符，用戶可以將該可能的命令限制為與屏幕上所示的被選的圖標相關的命令。然而，在行動電話中很難使用這樣的一種系統，通常缺少適合的圖形顯示。
US 5515475也描述了一種語音識別系統，設計為從音素或同位異音開始來建立字模型。
概述本發明的一個目的是克服與現有技術相關的某些問題，並提供一種行動電話中的方法和系統，具有被改進的準確度，可用於具有回波效應和有噪聲的環境中。
通過一種在行動電話中具有被安排成格子結構的詞彙表的語音識別系統達到了這個目的和其他的要求。每次語音識別系統為匹配只搜索整個詞彙表的一部分，這取決於在特定的時間語音識別系統被設置成搜索格子結構中哪一部分。最好以適當的方法通過詞彙表的格子結構，使得當某個命令被給於系統時，在此時的系統搜索該詞彙表的正確部分。
這樣一種方案解決了一次必須搜索許多詞的問題，並將大大地增加語音識別系統的準確度，特別是當將語音識別系統用於有噪聲的環境中時，錯誤判決的風險由此得以減少。為了彌補缺少圖形接口的行動電話，可對行動電話提供-種話音提示器，引導用戶通過詞彙表的格子結構。
附圖簡述現在將通過非限制性的例子並參考附圖，更詳細地對本發明進行描述，其中-

圖1是一種語音識別系統的一般性方框圖。
-圖2是當利用一種語音識別系統時用作說明不同步驟的流程圖。
-圖3是包括語音識別系統的一種行動電話的方框圖。
最佳實施方案描述在圖1中示出一種語音識別系統的一般性方框圖，該系統包括一個連到A/D變換器103的輸入終端101,A/D變換器被連到信號分析方框105。信號分析方框105被連到方框107，用於生成格子並連到詞識別方框109，方框109被連到方框111，用於作出判決並輸出被識別的詞，方框109也被連到存儲在語音識別系統中的詞彙表113，這將在以下作較詳細的描述。詞彙表113也被連到方框107。
這樣，聲音信號在輸入終端101上進入系統。在方框103中模擬的聲音信號被變換成相應的數位訊號，例如，以8 KHz的採樣頻率變換成具有，例如，13位/樣本的數位訊號。
接著，在方框105中進行對數位化信號的通常的信號分析。信號分析可包含特點提取和其他通常的操作，如濾波。來自方框105的輸出信號被送到方框109，在其中信號與存儲在詞彙表113中的詞作比較。進行比較所用的方法可以是任何通常的方法，如模式識別或馬爾柯夫模型。
在詞彙表中將詞安排成格子結構。因此，每次語音識別系統的整個詞彙表中只有一部分為匹配進行搜索。可以用任何適當的方法詳細研究詞彙表的格子結構，例如樹狀結構，使得當某個命令給於系統時，系統在此時搜索詞彙表的正確部分。這將解決一次必須搜索許多詞的問題，因而大大增加了語音識別系統的準確度，尤其是當語音識別系統被用於有噪聲的環境中時，錯誤判決的風險由此得以減少。
在一種最佳實施方案中，將詞彙表的詞分成不同的類，依次可被分成子類，等，如圖1中所示。這樣，首先，操作該系統的談話者通過將對應於該類的詞輸入語音識別系統，選擇他想由該系統識別的詞的類別。接著，談話者輸入對應於命令的命令字，該命令是談話者希望給於正從語音識別系統接收命令的計算機系統的。如果談話者希望輸入系統的命令字是位於該類的子類下，當然，他必須首先輸入與該特定的子類對應的詞。
如果最好由語音識別系統，例如，藉助於話音提示器幫助輸入命令，將連同圖2詳細描寫於下。
詞彙表的格子結構是有利的，因為它大大減少語音識別系統為每個輸入的詞或發音必須搜索的詞數。這樣就改進了語音識別系統的準確度，尤其是當語音識別系統被用於有噪聲的環境中時，由此減少錯誤判決的風險。
詞彙表中的詞必須通過訓練輸入語音識別系統。因此，當一個新的詞要輸入詞彙表時，系統被切換到訓練模式。這是通過操作方框105和107之間的開關S1完成的。
這樣，當開關S1閉合時，系統處於訓練模式。在訓練模式中，可以對系統實施通常的訓練。另外，系統的用戶可以將系統被訓練的每個詞放在格子結構中他覺得合適的任何位置上，他也可以添加類和子類，將詞從一個位置移到另一個位置或者刪除詞，子類或類。這些操作最好通過話音提示器的幫助，可以利用一種在系統中被提供的語音編碼器，正如以下連同圖3要描述的那樣。
在另一種最佳實施方案中，當在詞彙表中特定位置上的詞數高於某個預置的閾值值時，系統可自動地產生新的類或子類。適當的閾值值可在20-50個詞的範圍內。
當語音識別系統被集成在行動電話中時，在此所描述的語音識別系統可能是有用的一種應用。在這樣一種情況下，行動電話的用戶可能希望輸入某個電話號碼或者希望行動電話呼叫被輸入行動電話的電話簿的一個人。那末詞彙表可能包括在語音識別系統的訓練期間產生的許多不同的類別。
圖2中示出用作說明當輸入一個命令給被併入行動電話的一個語音識別系統時所進行的步驟的流程圖。這樣，首先在方框201中電話的語音識別系統被接通。於是語音識別系統等待輸入與用戶希望連接的電話號碼對應的詞彙表格式結構頂層上的詞中的一個。
在一種最佳實施方案中，輸入詞可通過話音提示器幫助。這樣，如果某個詞被輸入，如「選項」，話音提示器產生在格子的當前位置上可得的所有選項。因此，在本例中，當語音識別系統被併入一個電話中並且該系統是在格子的頂層時，可得到的選項的一個典型集可以是子類，如「朋友」，「辦公室」和「家庭」，還有與經常使用的號碼有關的詞以及在該層上可出現的重要號碼，如「SOS」。
如果與子類中的一個對應的詞被輸入時如方框203中所示，語音識別系統改變在詞彙表的格子結構中的位置。這樣，將可得到新的選項。如果，例如，詞「辦公室」被給於語音識別系統，在方框203中第一詞，在菜單「辦公室」下的子詞將由語音識別系統搜索，當一個新詞進入語音識別系統時進行。同時，話音提示器最好產生「辦公室」作為對用戶的確認，即語音識別系統已正確地解釋該詞。
再有，如果用戶想要知道他的選項，他就輸入「選項」，語音識別系統重複在詞彙的格子結構中在該位置上可得到的選項，例如「老闆」，「秘書」，和「向上」，其中「向上」對應於進行到格子結構中上一層。其他可得到的選項是在格子中同一層上的子類，在這種情況下也就是「朋友」和「家庭」。
如果在方框205中用戶輸入「秘書」作為第二詞，該詞對應於一個用戶想要系統實施的命令，在本例中，是電話的電話簿中的電話號碼。在一種優選實施方案中，話音提示器重複「呼叫秘書」，然後如果用戶輸入「是的」，在方框207中產生一個命令，使得與電話簿中詞「秘書」對應的電話號碼被該電話連接，如方框209所指明的那樣，語音識別系統被斷開。
圖3中示出一種行動電話301的方框圖，包括以上連同圖1被描述的語音識別系統。這樣，行動電話301具有輸入裝置303，可以是一種被連到A/D變換器305的通常類型的話筒。A/D變換器305的輸出端被連到數位訊號處理(DSP)方框307，包括語音編碼器/解碼器(SPE/D)309，免提信號處理(HFSP)方框311和自動語音識別(ASR)方框313。
DSP方框307也被連到微控制(MC)單元315，無線電發送單元317，包括無線電發射機/接收機方框319和信道編碼器/解碼器方框321，連到存儲器323和D/A變換器325。微控制單元315處理行動電話內部的所有信息流，並被設置成控制DSP 307和無線電發射機/接收機方框319。
這樣微控制單元315也被連到無線電發送單元317，依次連到天線327,D/A變換器325的輸出端被連到輸出裝置329，例如通常類型的揚聲器。
然後行動電話可按以上連同圖2所描述的方式操作。當接通時，MC單元可自動地將行動電話設置成允許口頭輸入命令的模式。如果需要的話，如以上所描述的那樣利用語音編碼器309,D/A變換器325和輸出端329，通過話音提示器輸出指令。
接著，當命令已經給出後，MC單元斷開語音識別系統(ASR)，並通過單元317和天線327發送與所給出的命令對應的電話號碼。
由此，利用通常的方法建立電話呼叫，DSP 307被設置成執行通常的處理，如聲音回波消除，噪聲壓制，和對語音進行有效的編碼。當呼叫被終止時，MC單元315可再次將DSP單元設置成接收口頭給出的命令。
在此所描述的用於行動電話的語音識別系統與以前所知的話音撥號系統相比有許多優點。這樣，許多詞可被存入詞彙表，即使在有噪聲的環境中，行動電話的話音撥號功能仍然可以正確地進行，這是由於詞彙表的格子結構。詞彙表的格子結構是獨立於所用的語音識別算法。當利用在此所描述的系統時，詞彙表外排斥(OVR)功能的性能也將得以增加，因為可能輸入的詞數保持為最少。
權利要求
1．一種行動電話中的語音識別系統包括一個詞彙表，其特徵在於在詞彙表中的詞(字)被安排在包括許多詞組的格子結構中，使得每次為一個詞搜索整個詞彙表中有限的組數。
2．依據權利要求1的系統，其特徵在於詞彙表被安排成樹狀結構。
3．依據權利要求1或2中任一項的系統，其特徵在於-用於輸出在特定時刻該系統被設置要識別的詞的裝置。
4．依據權利要求3的系統，其特徵在於所述的裝置是一種話音提示器。
5．依據權利要求1-4中任一項的系統，其特徵在於-如果在一個組中的詞數超過一定的，預先設置的閾值值時，用於自動產生一個新組的裝置。
6．一種在行動電話的語音識別系統中的語音識別方法包括一個詞彙表，其中在詞彙表中的詞被安排在包括許多詞組的格子結構中，其特徵在於每次為一個詞只搜索整個詞彙表中的一組或有限的組數。
8．依據權利要求7的方法，其特徵在於將詞彙表安排成樹狀結構。
9．依據權利要求7或8中任一項的方法，其特徵在於將該系統設置到的在特定的時刻識別的可用的詞從該系統輸出。
10．依據權利要求9的方法，其特徵在於該可用的詞由話音提示器產生。
11．依據權利要求7-10中任一項的方法，其特徵在於如果在一個組中的詞數超過一定的，預先設置的閾值值時，自動地產生一個新組。
全文摘要
在行動電話的語音識別系統中，將詞按格子結構組織。因此，每次語音識別系統只需要搜索整個詞彙表的有限部分。這樣一種方案解決了一次必須搜索許多詞，費時又給系統加上很重計算負荷的問題，因而將大大地增加語音識別系統的準確度。
文檔編號G10L15/19GK1317134SQ99810589
公開日2001年10月10日申請日期1999年9月2日優先權日1998年9月4日
發明者F·梅庫裡爾申請人:艾利森電話股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

話音撥號的方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法