新四季網

無線通信系統中語音的可靠轉換及其方法

2023-07-23 08:59:11

專利名稱:無線通信系統中語音的可靠轉換及其方法
技術領域:
本發明涉及下述發明,下述發明的受讓人與本發明的受讓人相同Andric等等發明的、在1998年3月30日申請的美國申請No.09/050,184,題為「一個無線通信系統中的語音識別系統及其方法」。
本發明一般涉及無線通信系統,特別地,涉及一個無線通信系統中語音的可靠轉換。
目前,因為可以獲得連續語音識別系統,語音識別系統對傳統計算機的用戶來說已經很熟悉了。這些應用一般被設計成為與說話者相關的語音識別。即,為了高度準確地將語音轉換為文本消息,連續語音識別系統必須針對一個特定說話者進行語音訓練。通常的做法是,讓這個說話者閱讀幾段預先錄製號的消息,然後這個語音識別系統進行錄音並且進行分析,以獲得這個說話者的統計語音模型集合。在後面,連續語音識別系統將利用這些模型把說話者的語音轉換為一個文本消息。
儘管上述方法在將語音轉換為文本消息的處理過程中,提供了一相對較高的準確性,但是,人們仍然希望有更高程度的準確性以便實現無缺陷的轉換。在實現一個無缺陷的轉換標準中,目前的連續語音識別系統仍然存在幾個缺點。例如,在產生一個等效的文本消息時,目前的算法極大地依賴於被分析語音信號的頻譜包絡特徵。這是不利的,因為這樣一個方法沒有考慮語音中的其它特徵,例如語音頻譜的形狀,而語音頻譜形狀可能會對改善語音轉換的準確性有幫助。另外,目前的算法可能不能夠很好地以一高準確性來識別還沒有用其特定語音特徵來訓練這個系統的特定說話者的語音。因為現有語音識別系統具有前述的限制,無線通信系統的業務提供者不得不選擇利用人工操作員來將希望向一個或者多個SCR(選擇性呼叫無線裝置)發送消息的呼叫者的語音消息轉錄為文本消息。在使用一個完全自動化的語音識別系統的問題上,業務提供者一般是比較猶豫的,因為目前的語音識別系統不能夠保證無錯誤地將語音消息轉換為文本消息。但是,使用人工操作員是昂貴的,特別是對一天工作24個小時,一年中的每一天均進行工作的無線通信系統來說。所以,在一個無線通信系統中,就需要將語音消息轉換為文本消息的過程自動到可以取消或者降低人工操作員執行這個轉換的程度。
所以,所需要的是一個裝置和方法,它能夠在一個無線通信系統中進行可靠的語音轉換,並且這個裝置和方法能夠滿足目前的需求,並且克服了現有技術中的前述缺點。
本發明的特徵在後附權利要求書中被提出。但是,通過參考下面聯繫附圖的詳細描述,可以更好地理解本發明的其它特徵,並且也會對本發明的其它特徵更清楚,其中

圖1是根據本發明的一個無線通信系統的一個電氣框圖;圖2和3是根據本發明的無線通信系統的固定和可攜式部分的電氣框圖;圖4描述了根據本發明,在無線通信系統中使用人工操作員的情形;圖5-6顯示了總結根據本發明的無線通信系統的存在的流圖;和圖7-10顯示了表示根據本發明,對被一個呼叫者所產生的語音信號所進行的變化的圖。
圖1是一個無線通信系統的電氣框圖,它包括一個固定部分102和一個可攜式部分104。這個固定部分102包括一個控制器112,這個控制器112通過傳統的通信鏈路,例如微波鏈路來控制多個基站116的操作。可攜式部分104包括多個SCR(選擇性呼叫無線電裝置)122,選擇性SCR用於在控制器112的控制下,從基站116接收消息。應理解,替代地,這個無線通信系統可以被修改成在SCR122和基站116之間能夠支持雙向通信。可以通過在SCR122和基站116中均使用無線收發器來實現這個修改。
現在轉到控制器112的操作上,我們發現控制器112從利用與一個傳統的PSTN(公眾交換電話網)110進行通信的一個傳統的電話124的呼叫者接收消息。然後,PSTN110通過連接到控制器112的一個傳統電話線路101將這些消息轉發到控制器112。在從PSTN 110接收到這些消息後,控制器112處理這些消息,並且將這些消息發送到基站116,以發送到指定的SCR122。應理解,替代地,電話124可以通過一個傳統的電話線路103直接連接到控制器112。
圖2和3是根據本發明的這個無線通信系統的固定部分和可攜式部分102,104的電氣框圖。固定部分102的電氣框圖包括控制器112的部件和基站116的部件。控制器112包括用於控制基站116的操作的一個傳統處理系統210,一個語音識別系統218,和用於將消息發送到基站116的一個發送器接口204。語音識別系統218從PSTN 110,和/或者從一個直接電話連接103接收語音消息,並且將這些語音消息轉換為等價的文本消息。處理系統210包括傳統的硬體,例如一個計算機系統212(帶內含的隨機訪問存儲器(RAM)--圖2中沒有顯示)和大容量保存媒質(例如,一個傳統的硬碟)214,以執行控制器112的被編程操作。基站116包括連接到一個天線201的一個傳統RF發送器202,以發送從控制器112所接收的消息。
現在不詳細討論SCR122,在已經討論完固定部分102後,再開始詳細討論SCR 122。開始這個討論時,讀者必須參考圖5-6,圖5-6顯示了總結根據本發明的無線通信系統的操作的流圖400,417。流圖400描述了控制器112的被編程指令,這個被編程指令開始被保存在大容量保存媒質214中,然後從被包括在計算機系統212中的RAM中被操作。
流圖400從步驟401開始,其中希望向一個被選擇SCR 122發送一個消息的一個主叫開始與無線通信系統進行通信。如前面所提到的,這個與控制器112進行的通信可以從PSTN 110發起,也可以從一個直接的電話連接103發起。在步驟417中,主叫的語音信號被轉換為與語音等價的一個文本。在轉換步驟417後,在一第一實施方式中,這個文本消息在步驟432中被直接發送到被選擇SCR 122。處理系統210不需要進行進一步的處理。在一個替代的實施方式中,在轉換步驟417後,處理系統210進行到步驟418,其中語音識別系統218產生這個語音信號被無誤地轉換為一個文本消息的成功概率(例如,在0%到100%之間)。在步驟422中,處理系統210將這個成功概率與一個預定的閾值進行比較。
預定的閾值可以是,例如,無線通信系統的業務提供者根據從轉換步驟417中所希望的、可以接受的最小準確性(例如,低於90%的可信度是不能夠接受的)而選擇的一個值。在步驟418中所產生的成功概率比所選擇預定的閾值低的情形下,然後,處理系統210進行到步驟424;否則,處理系統210進行到步驟432,其中文本消息被發送到目的SCR 122。現在轉到步驟424,處理系統210提示無線通信系統的一個人工操作員聽在步驟401中主叫所產生的語音信號的一個可聽的表示,並且在步驟426中產生一個糾正的文本消息。
例如,可以這樣來完成步驟426讓這個人工操作員坐在連接到這個無線通信系統的一個計算機終端(見圖4)前,聽語音信號的一個可聽的表示,並且完全地在這個計算機終端上轉寫出主叫的語音消息。一旦完成了這個步驟,人工操作員通過提示無線通信系統接受這個糾正的文本消息來將這個糾正的文本消息提供給這個無線通信系統。可以通過在這個計算機終端上按下一個或者多個預定鍵(例如,CTRL T表示將這個文本消息發送到SCR 122的一個命令)來完成這個糾正消息的表示。應理解,可以有替代的方法來實現將這個糾正的文本消息發送到無線通信系統,並且該領域內的任何一個普通技術人員將認為這些方法中的任何一個在本發明的範圍內。
應進一步理解,替代地,人工操作員可以聽這個主叫的語音消息,同時在這個人工操作員進行操作的計算機終端監視器上觀看語音識別系統218在步驟417中所產生的文本消息。在這樣做的過程中,人工操作員可以發現,文本被無誤地轉換了,並且不需要進行任何糾正。應注意的是,在預定閾值(例如,90%)下的一個成功概率並不是一定意味著主叫語音消息的轉換是有錯誤的。因為這個原因,人工操作員可能會發現,在聽到語音信號的一個可聽的表示後,不需要進行任何糾正。類似地,人工操作員將發現,語音識別系統218在步驟417中所產生的文本消息僅有少數幾個錯誤。在這個情形下,人工操作員將糾正這些錯誤,而不是轉錄整個消息。
最後,在人工操作員在步驟426中不能夠理解主叫的語音消息的情形下,這樣來修改描述步驟426的上述實施方式,以使控制器112不掛斷與主叫的通話,而繼續通過PSTN 110或者直接電路線路103與這個無線通信系統進行通信。一旦人工操作員發現,在步驟426中語音信號的可以聽的表示是不可理解時,人工操作員在步驟428中繼續與主叫進行通信,並且在步驟430中請求重複語音消息。然後,人工操作員將被重複的語音消息轉錄為一個正確的文本消息。
在完成了步驟417-430所描述的任何一個前述實施方式時,處理系統210進行到步驟432,由此它促使一個被選擇的基站116向SCR 122發送正確的文本消息。
語音識別系統218包括了本發明的一個顯著特徵,如圖5的步驟424-430所描述的,它基本上減少了一個人工操作員的使用。儘管本發明不局限於這一特定類型的語音識別系統,圖6的流圖顯示了語音識別系統218的一個優選實施方式。這個實施方式在將一個主叫的語音消息無誤地轉換為一個文本消息時,所提供的第一次成功的程度高,由此限制了激發步驟424-430的頻率。
將語音轉換為一個文本消息的過程從步驟402開始,其中在步驟401中從一個主叫發出的一個語音信號被採樣。圖7顯示了一個語音信號。在步驟403中,處理系統210被編程為對被採樣語音信號的多個幀間隔(例如,10-25毫秒)應用傅立葉變換,以產生具有每一個幀間隔的一個頻譜包絡的頻譜數據。在這個步驟中被應用的傅立葉變換優選是一個快速傅立葉變換。圖8顯示了一個幀間隔內的頻譜信號。假設輸入語音信號用xn表示,下述的方程就描述了步驟403的結果Pk=n=0N-1xne-j2nk/N]]>
其中0≤k≤N-1。
在步驟404中,對每一個幀間隔,頻譜數據被分成多個帶,每一個帶具有一個預定帶寬(例如,400Hz)。應理解,替代地,每一個帶的帶寬可以是不同的。在步驟406中,處理系統210判斷每一個帶中頻譜數據的一個平均幅度。然後,在步驟407中,對平均幅度應用一個對數函數來產生一個被轉換的平均幅度。在步驟408中,然後去除被轉換平均幅度的相關(優選使用一個離散餘弦變換),以產生頻譜包絡特徵。
然後,控制器112進行到步驟409,從每一個幀間隔的頻譜數據濾波出頻譜包絡,以產生每一個幀間隔的被濾波頻譜數據。這個步驟優選地包括對每一個幀間隔的頻譜數據進行平均以產生一個頻譜包絡估計的步驟,從頻譜數據中減去頻譜包絡估計的步驟。這些步驟基本上可以用函數表示P′k=f(i)*Pk』其中 函數f(ⅰ)是該領域內眾所周知的一個1-D Haar函數,P′k是Haar函數與原始頻譜數據Pk的卷積。圖9顯示了對頻譜數據進行濾波的結果。
下面,在步驟410中,對每一個帶的被濾波頻譜數據應用一個快速傅立葉變換來產生每一個帶的自相關函數。如果在原始頻譜數據中有一個強的諧振結構,每一個帶的自相關函數將在其基調周期值的附近有一個高的峰值。因為這個原因,優選地,每一個子帶的每一個自相關函數將被其相應的頻帶內能量所歸一化。在步驟412中,控制器112進行到測量每一個帶的自相關函數的幅度值。自相關函數的幅度值被定義為每一個帶的一個語音度(degree of voiceness)的度量。
有兩個實施方式來測量自相關函數的幅度值。在一第一實施方式中,自相關函數的幅度值與自相關函數的一個峰值幅度相應。替代地,在一第二實施方式中,對每一個幀間隔,每一個帶的自相關函數的幅度值由下述決定(1)將每一個帶內的自相關函數進行相加,以產生一個複合自相關函數,(2)決定複合自相關函數的一個峰值幅度,(3)從峰值幅度決定出一個相應的頻率標記,和(4)利用相應的頻率標記來決定每一個帶的一個相應幅度值。
圖10顯示了第二實施方式。圖(a)-(d)表示帶1-4的自相關函數。圖(e)是將帶1-4的自相關函數進行相加而獲得的複合自相關函數的結果。從這個複合自相關函數,可以決定一個峰值幅度和一個相應的頻率標記。然後,這個相應的頻率標記被用於決定如在圖(a)-(d)內所顯示的每一個帶的一個相應幅度值。
如前面所提到的,自相關函數的幅度值是每一個帶的一個語音度的度量。在通過前面所描述的任何一個實施方式,決定了每一個帶的一個語音度後,在步驟414中,在步驟408中被決定的頻譜包絡特徵和剛才所討論的語音度被應用到相應的多個音素模型。音素模型作為從人類語音的統計模型而決定出的語音模型在該領域內是眾所周知的。在該領域內,音素模型也一般被稱作Hidden Markov模型。一個音素表示被一個說話者使用的、用於構造一個詞的聲音的最小量。例如,詞「is」可以被分解為兩個音素聲音「ih」和「z」。因為不同文化背景的個人可能會使用不同的方言來說話,所以詞「is」可能會有多個音素模型集合來表示不同的人群。例如,有的個人將使用一個「s」的聲音來結束詞「is」,即「ih」和「s」。
作為一個優選的實施方式,音素模型是建立在大部分人群人類語音的基礎上的,這能夠解決根據不同的語音方言而變化發音的問題。從一個大的人群推斷出音素模型允許本發明可以用作一個與說話者無關的語音識別系統。即,音素模型是與一特定說話者的語音無關的。通過將與說話者無關的描述構造在一個音素模型庫中,這個無線通信系統的控制器112可以將一個國家內的任何說話者的語音轉換為一個文本消息,而不需要預先訓練主叫的語音。但是,應理解,本發明可以被改變,以使可以從一個或者多個特定說話者所提供的訓練來構造一個音素庫,由此形成與一個說話者相關的音素庫。雖然可以有這個替代的實施方式,但是隨後的討論將集中在一個與說話者無關的音素庫上。
根據一個與說話者無關的音素庫,如步驟416所表示的,語音到一個文本消息的轉換可以通過將每一個帶的頻譜數據的頻譜包絡特徵和每一個帶的語音度與一個與說話者無關的音素庫進行比較來完成。從這個比較中,識別出一個可能的音素列表,然後,這些可能的音素被與一個詞典(從,例如,英語中)和它們需要的音素進行比較,以從主叫的被處理語音信號中推斷出一個與語音等價的文本。作為決定一個或者多個可能的音素的比較過程的一部分,優選使用下述概率函數bj(Ok)=s=1s[m=1M1cjsmN(Ost;jst,jsm)]rs]]>其中Ms是在流s中的混合分量的數目。本發明的變量S為2,這表示兩個可能性的乘積。即,一個乘積表示根據每一個帶的頻譜數據的頻譜包絡特徵的一個匹配的音素模型集合的可能性,另一個乘積表示根據每一個帶的語音度的一個匹配的音素模型集合的可能性。變量Cjsm是權重因子,而函數N是一個多變量的高斯函數,其中變量Ost是表示每一個帶的頻譜包絡特徵和語音度的輸入數據矢量,其中Ujsm和∑jsm是音素庫中每一個音素的平均和協方差矢量。最後,變量s被用於向頻譜包絡特徵可能性結果和語音度可能性結果提供不同的權重。例如,頻譜包絡特徵可能性結果的權重可以是1.00,而語音度可能性結果的權重可以是1.20。所以,從使用語音度數據所推斷出的輸出被給予了更多的重要性,而不是從頻譜包絡特徵數據推斷出的結果。應理解,可以給予任何的權重,這與使用本發明的應用相關。
每一個概率結果(bj)然後被與多個幀的流進行比較,以決定與主叫的語音消息等價的一個文本版消息。在這個比較過程導致一個或者多個可能的文本流的情形下,根據每一個分支的一個複合概率結果來選擇具有最大成功可能性的一個文本流。一旦已經選擇了具有最大成功可能性的文本結果,控制器112就進行到圖5的步驟418-426,如前面所討論的。
這篇論文有助於對進一步理解使用前述方程(用bj表示的)來預測從一個語音信號推斷出一個音素流的概率。
關於前述預測一個音素流的概率的前述方程的一個詳細描述見Steve Young,England,Cambridge CB3 OAX的Entropic CambridgeResearch Laboratory的「HTK Book」,在這裡,這本書被用作參考。另外,讀者也可以參考下述與語音識別系統相關的介紹材料,這見Joseph Picone在1990年7月IEEE ASP Magazine的第26-40頁上發表的「Continuous Speech Recognition Using Hidder MarkovModels」,和Yves Normandin在1994年4月V0l.2 No.2 IEEETransactions on Speech and Audio Processing上發表的「High-Performance Connected Digit Recognition Using Maximum MutualInformation Estimation」,在這裡它們分別被用作參考。
前述方法和裝置基本上比現有該領域內的系統是有利的。首先,使用將一個語音消息轉換為文本消息的一個語音識別系統基本上減少了人工操作員轉錄消息的需求,由此降低了成本。第二,儘管對本發明來說不是非常必要的,但是採用如圖5的一個流圖所描述的、用於語音識別系統218的操作的一個優選的實施方式可以進一步改善本發明對現有領域內技術的優點。特別地,讀者從本發明的背景中可以回想起,因為是將重點放在根據被分析語音信號的頻譜包絡特徵來推斷文本消息上,所以現有技術的系統在將語音消息轉換為文本消息時的成功率會比較低。
相反,本發明利用了語音頻譜的紋理(在上面被描述為語音度)和語音信號的頻譜包絡特徵的分析。通過利用頻譜信號的幅度數據和語音數據度來與一個音素庫進行比較,本發明在將與說話者相關和說話者無關的語音信號無誤地轉換為文本消息時具有更高的準確性。
已經總結了無線通信系統的固定部分102,現在讀者的注意力轉移到圖3,圖3顯示了根據本發明的SCR 122的電氣框圖。如在圖5的步驟432所提到的,SCR 122接收被這個無線通信系統處理後的、一個主叫所產生的文本消息(採用字母數字形式的消息),如圖5-6的流圖所顯示的。SCR 122包括連接到一個天線302的一個接收器304,一個電源開關306,一個處理器308,一個提示裝置316,一個顯示裝置318,和用戶控制314。接收器304和天線302是傳統的、用於接收被基站116所發送消息的RF部件。電源開關306是一個傳統的開關,例如一個MOS(金屬氧化物半導體)開關,用於在處理器308的指令下控制到接收器304的電源,由此提供一個節省電池的功能。
處理器308被用於控制SCR 122的操作。一般,其基本功能是解碼和處理接收器304所提供的被解調的消息,將這些消息保存起來,並且向一個用戶提示已經接收到消息。為了執行這個功能,處理器308包括連接到一個傳統的存儲器310的一個傳統的微處理器312,傳統的存儲器310包括非揮發性部分和揮發性存儲器部分,例如一ROM(只讀存儲器)和RAM(隨機訪問存儲器)。存儲器310的用途之一是用於保存從基站116接收到的消息。存儲器310的另一個用途是保存一個或者多個選擇性呼叫地址,以用於識別屬於這個SCR 122的輸入消息。
一旦一個消息已經被解碼並且被保存在存儲器310中,處理器308激活提示裝置316,這個提示裝置316產生一個可感覺的和/或者可聽的提示信號給一個用戶。通過顯示器318,這個顯示器318可以是一個傳統的LCD(液晶顯示器)和傳統的用戶控制314,用戶可以處理所接收的消息。用戶控制314提供選項,例如讀取,刪除和鎖定消息。
儘管已經就優選實施方式描述了本發明,但是該領域內的技術人員很清楚,可以進行很多改變和變化而不會偏離本發明的範圍。所以,應注意,所有這樣的改變和變化均在後附權利要求書所定義的本發明的精神和範圍內。
權利要求
1.在一個無線通信系統中的一個方法,包括步驟將一個主叫發起的、表示一個語音消息的語音信號轉換為一個文本消息,其中這個文本消息是需要發送到一個SCR(選擇性呼叫無線電裝置)的;產生這個語音信號被無誤地轉換到一個文本消息的成功概率;將這個成功概率與一個預定閾值進行比較;如果這個成功概率比預定閾值低,提示這個無線通信系統的一個人工操作員進行聽表示這個語音信號的一個可聽的表示,和產生一個糾正的文本消息;將糾正的文本消息發送到這個SCR。
2.如權利要求1的方法,其中糾正步驟包括步驟當人工操作員聽這個語音信號的可聽表示時讓主叫不掛機;如果人工操作員不能夠理解這個語音信號的可聽表示,提示人工操作員進行與主叫進行聯絡,讓主叫重複語音消息,和將被重複的語音消息轉錄為糾正的文本消息;和將糾正的文本消息發送到這個SCR。
3.如權利要求1的方法,其中轉換步驟包括步驟採樣一個語音信號;將一個傅立葉變換應用到被採樣語音信號的多個幀間隔,以產生具有每一個幀間隔的頻譜包絡的頻譜數據;將每一個幀間隔的頻譜數據分為多個帶;從每一個幀間隔的頻譜數據濾波出頻譜包絡,以產生每一個幀間隔的被濾波頻譜數據;將一個傅立葉變換應用到每一個幀間隔的被濾波頻譜數據,以產生每一個帶的自相關函數;測量每一個帶的自相關函數的幅度值,由此這個值是每一個帶的語音的度量;將每一個帶的語音度應用到多個相應的音素模型;和通過根據相應多個音素模型所進行的預測,搜尋一個音素庫來從這個語音信號中推斷出與語音等價的一個文本消息。
4.如權利要求3的方法,進一步包括步驟決定每一個帶的一個平均幅度;對這個平均幅度應用一個對數函數,以產生一個被轉換的平均幅度;去除被轉換平均幅度的相關,以產生頻譜包絡特徵;和將每一個帶的頻譜包絡特徵應用到相應的多個音素模型。
5.如權利要求3的方法,其中自相關函數的幅度值是一個峰值幅度。
6.如權利要求3的方法,其中對每一個幀間隔,從下面來決定每一個帶的自相關函數的幅度值將每一個帶內的自相關函數進行相加,以產生一個複合自相關函數;決定複合自相關函數的一個峰值幅度;從峰值幅度決定出一個相應的頻率標記;和利用相應的頻率標記來決定每一個帶的一個相應幅度值。
7.如權利要求3的方法,進一步包括步驟每一個子帶的每一個自相關函數將被其相應的頻帶內能量所歸一化。
8.如權利要求3的方法,其中傅立葉變換包括一個快速傅立葉變換。
9.如權利要求3的方法,其中濾波出頻譜包絡的步驟包括對每一個幀間隔的頻譜數據進行平均以產生一個頻譜包絡估計;和從每一個幀間隔的頻譜數據中減去頻譜包絡估計。
10.在一個無線通信系統中的一個方法,包括步驟將一個主叫發起的、表示一個語音消息的語音信號轉換為一個文本消息,其中這個文本消息是需要發送到一個SCR(選擇性呼叫無線電裝置)的;和將文本消息發送到這個SCR。
11.如權利要求10的方法,其中轉換步驟包括步驟採樣一個語音信號;將一個傅立葉變換應用到被採樣語音信號的多個幀間隔,以產生具有每一個幀間隔的頻譜包絡的頻譜數據;將每一個幀間隔的頻譜數據分為多個帶;從每一個幀間隔的頻譜數據濾波出頻譜包絡,以產生每一個幀間隔的被濾波頻譜數據;將一個傅立葉變換應用到每一個幀間隔的被濾波頻譜數據,以產生每一個帶的自相關函數;測量每一個帶的自相關函數的幅度值,由此這個值是每一個帶的語音度的度量;將每一個帶的語音度應用到多個相應的音素模型;和通過根據相應多個音素模型所進行的預測,搜尋一個音素庫來從這個語音信號中推斷出與語音等價的一個文本消息。
12.如權利要求11的方法,進一步包括步驟決定每一個帶的一個平均幅度;對這個平均幅度應用一個對數函數,以產生一個被轉換的平均幅度;去除被轉換平均幅度的相關,以產生頻譜包絡特徵;和將每一個帶的頻譜包絡特徵應用到相應的多個音素模型。
13.如權利要求11的方法,其中自相關函數的幅度值是一個峰值幅度。
14.如權利要求11的方法,其中對每一個幀間隔,從下面來決定每一個帶的自相關函數的幅度值將每一個帶內的自相關函數進行相加,以產生一個複合自相關函數;決定複合自相關函數的一個峰值幅度;從峰值幅度決定出一個相應的頻率標記;和利用相應的頻率標記來決定每一個帶的一個相應幅度值。
15.如權利要求11的方法,進一步包括步驟每一個子帶的每一個自相關函數將被其相應的頻帶內能量所歸一化。
16.如權利要求11的方法,其中傅立葉變換包括一個快速傅立葉變換。
17.如權利要求11的方法,其中濾波出頻譜包絡的步驟包括對每一個幀間隔的頻譜數據進行平均以產生一個頻譜包絡估計;和從每一個幀間隔的頻譜數據中減去頻譜包絡估計。
18.一個無線通信系統,包括一個語音識別系統,用於接收被主叫所發起的消息;一個發送器,用於將消息發送到這個無線通信系統的多個SCR(選擇性呼叫無線電裝置);和一個處理系統,連接到這個語音識別系統,和發送器,其中處理系統被調節成促使這個語音識別系統將從這個無線通信系統的一個主叫發起的、表示一個語音消息的語音信號轉換為一個文本消息,其中這個文本消息是需要被發送到一個SCR的;促使這個語音識別系統產生語音信號被無誤地轉換為文本消息的一個成功概率;將這個成功概率與一個預定閾值相比;如果成功概率比預定閾值低,提示這個無線通信系統的一個人工操作員進行聽表示這個語音信號的一個可聽的表示,和產生一個糾正的文本消息;和促使這個發送器將糾正的文本消息發送到這個SCR。
19.如權利要求18的無線通信系統,其中在糾正步驟中,這個處理系統被進一步調節成當人工操作員聽這個語音信號的可聽表示時讓主叫不掛機;如果人工操作員不能夠理解這個語音信號的可聽表示,提示人工操作員進行與這個主叫進行聯絡,讓主叫重複語音消息,和將被重複的語音消息轉錄為正確的文本消息;和促使這個發送器將糾正的文本消息發送到這個SCR。
20.如權利要求18的無線通信系統,其中語音識別系統被調節成在多個幀間隔期間,採樣被一個主叫所產生的一個語音信號,其中這個語音信號表示需要被發送到一個選擇性呼叫無線電裝置的一個消息;將一個傅立葉變換應用到被採樣語音信號的多個幀間隔,以產生具有每一個幀間隔的頻譜包絡的頻譜數據;將每一個幀間隔的頻譜數據分為多個帶;從每一個幀間隔的頻譜數據濾波出頻譜包絡,以產生每一個幀間隔的被濾波頻譜數據;將一個傅立葉變換應用到每一個幀間隔的被濾波頻譜數據,以產生每一個帶的自相關函數;測量每一個帶的自相關函數的幅度值,由此這個值是每一個帶的語音度的度量;將每一個帶的語音度應用到多個相應的音素模型;通過根據相應多個音素模型所進行的預測,搜尋一個音素庫來從這個語音信號中推斷出與語音等價的一個文本消息;促使這個發送器將這個等價的文本消息發送到選擇性呼叫無線電裝置,其中這個與語音等價的文本消息是表示被主叫發起的消息。
21.一個無線通信系統,包括一個語音識別系統,用於接收被主叫所發起的消息;一個發送器,用於將消息發送到這個無線通信系統的多個SCR(選擇性呼叫無線電裝置);和一個處理系統,連接到這個語音識別系統,和發送器,其中處理系統被調節成促使這個語音識別系統將從這個無線通信系統的一個主叫發起的、表示一個語音消息的語音信號轉換為一個文本消息,其中這個文本消息是需要被發送到一個SCR的;和促使這個發送器將本消息發送到這個SCR。
22.如權利要求21的無線通信系統,其中語音識別系統被調節成在多個幀間隔期間,採樣被一個主叫所產生的一個語音信號,其中這個語音信號表示需要被發送到一個選擇性呼叫無線電裝置的一個消息;將一個傅立葉變換應用到被採樣語音信號的多個幀間隔,以產生具有每一個幀間隔的頻譜包絡的頻譜數據;將每一個幀間隔的頻譜數據分為多個帶;從每一個幀間隔的頻譜數據濾波出頻譜包絡,以產生每一個幀間隔的被濾波頻譜數據;將一個傅立葉變換應用到每一個幀間隔的被濾波頻譜數據,以產生每一個帶的自相關函數;測量每一個帶的自相關函數的幅度值,由此這個值是每一個帶的語音度的度量;將每一個帶的語音度應用到多個相應的音素模型;通過根據相應多個音素模型所進行的預測,搜尋一個音素庫來從這個語音信號中推斷出與語音等價的一個文本消息;促使這個發送器將這個與語音等價的文本消息發送到選擇性呼叫無線電裝置,其中這個與語音等價的文本消息是表示被主叫發起的消息。
全文摘要
一個無線通信系統,包括一個語音識別系統(218),一個發送器(202),和一個處理系統(210)。這個語音識別系統用於接收被主叫所發起的消息,這個發送器用於將消息發送到這個無線通信系統的多個SCR(選擇性呼叫無線電裝置)(122)。這個處理系統,連接到這個語音識別系統,和發送器,被調節成促使這個語音識別系統將從這個無線通信系統的一個主叫發起的、表示一個語音消息的語音信號轉換為一個文本消息(401,417),其中這個文本消息是需要被發送到一個SCR的,並且促使這個發送器將本消息發送到這個SCR(432)。
文檔編號G10L15/00GK1298534SQ99805540
公開日2001年6月6日 申請日期1999年3月25日 優先權日1998年4月27日
發明者陳燕鳴, 張路, 肯尼思·D·芬倫, 阿瑟·G·赫科特 申請人:摩託羅拉公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀