基於聲碼器的語音識別器的製作方法
2023-07-20 09:14:11 2
專利名稱:基於聲碼器的語音識別器的製作方法
技術領域:
本發明總地涉及語音識別器,並涉及使用線性預測編碼(LPC)聲碼器數據作為輸入的語音識別器。
背景技術:
在本領域裡,語音識別器大家都非常熟悉,它在許多地方都有應用。例如,移動裝置的指令和控制應用、計算機錄音電話機、兒童玩具和汽車電話裡都使用了語音識別。在所有這些系統裡,都將語音信號數位化,然後參數化。將參數化的輸入信號與其發音已知的基準參數化信號比較。與輸入信號最吻合的基準信號的相關發音就是識別出來的發音。
語音識別系統在語音撥號系統中有其特殊的用途,當用戶說出他想呼叫的人的名字時,語音識別系統就從事先提供的基準表識別出這一名字,並給出這一識別出來的名字所對應的電話號碼。然後電話機撥這一號碼。結果是用戶接通了他想要的電話,而不必尋找電話號碼,也不必用自己的手來撥電話號碼。
語音撥號對汽車行動電話來說特別重要,在這種情況下,電話用戶通常就是汽車駕駛員,他必須不間斷地將注意力集中在路面上。如果駕駛員想給某個人打電話,駕駛員說出這個人的名字比他親自去撥電話號碼要安全得多。
下面參考
圖1,它說明的是一架數字行動電話的主要部件。一般而言,行動電話中有一個麥克風10、一個揚聲器12、一個模數轉換單元14、一個用標為DSP-1的數位訊號處理(DSP)晶片實現的聲碼器16、微控制器或中央處理單元(CPU)中的一個作業系統18、一個射頻接口單元(RF單元)19和一付天線20。發射信號的時候,麥克風10產生模擬語音信號,由單元14數位化。聲碼器16壓縮語音取樣,以減少要通過射頻單元19和天線20發射給另一個行動電話的數據量。接收端行動電話的天線20通過射頻單元19將收到的信號提供給聲碼器16,聲碼器16對收到的信號解壓縮,得到語音取樣。單元14將語音取樣轉換成模擬信號,由揚聲器12播放出來。作業系統18控制行動電話的工作過程。
對於語音撥號系統,行動電話還有一個語音識別器22,實現在標為DSP-2的一個單獨的DSP晶片裡,它接收數位化的語音取樣作為輸入,對該語音信號進行參數化,並將參數化的輸入信號與基準語音信號比較。一般情況下,語音識別器22或是將匹配信號的識別碼提供給作業系統18,或者是提供有關的電話號碼,如果這一匹配信號有一個電話號碼與之對應。
現在參考圖2,它說明語音識別器22工作的總過程。將數位化的語音取樣按預定長度分成幀,例如長度為5-20ms的幀,提供給識別器22的就是這些幀(步驟28)。對於每一幀,識別器22首先計算(步驟30)這一幀的能量。
現在參考圖3,它說明的是,作為時間的函數,說出來的詞「RICHARD」的每一幀的能量。這一能量信號有兩個峰31和33,對應於這個詞的兩個音節。不說話的時候,圖中用參考數字35表示,甚至在音節之間,能量電平顯然要低得多。
因此,識別器22在能量信號裡搜索(圖2中的步驟32)一個詞的開頭和結尾。將詞的開頭定義為能量信號維持低電平的時間超過一段預定長度以後,能量開始顯著增大的那一個點37。將詞的結尾定義為能量的顯著降低結束的那一點39,在這一點以後,能量信號維持低電平的時間比一段預定時間的長度長。在圖3裡,詞的開頭37大約在0.37s處,結尾39大約在0.85s處。
如果找到了一個詞,見步驟34中選中的分支,語音識別器22就進行(步驟36)線性預測編碼(LPC)分析,從而生成所說詞的參數。在步驟38裡,語音識別器22計算說出的詞的識別特徵,在步驟40裡,語音識別器22從基準庫裡搜索匹配的基準詞識別特徵。或者語音識別器22在叫做「訓練」的過程裡將識別特徵存入基準庫。
可惜,語音識別過程計算量很大,因此只能在第二DSP晶片DSP-2裡才能實現。這給行動電話增加了不少的成本。
發明概述本發明的目的是提供一種語音識別器,它處理的是由基於LPC的聲碼器壓縮過的語音數據,而不是語音數據取樣,從而減少識別器的計算量。這樣,語音識別可以在同時運行作業系統程序的微控制器或CPU中進行。由於語音識別器不分析語音信號,就可以用處理能力有限和/或不需要接收語音信號的微控制器或者CPU。
此外,本發明提供一種特徵發生器,它可以從基於LPC的不同類型的聲碼器提取相同類型的特徵數據用於識別。這樣,本發明可以針對用基於LPC的不同類型的聲碼器壓縮過的壓縮語音數據,進行同樣的識別操作(例如比較和訓練)。
因此本發明的一個優選實施方案提供了一種方法,用於利用基於線性預測編碼(LPC)的聲碼器數據識別說出來的詞,而不必完全重建語音數據。這一基於聲碼器的識別器用於實現這裡描述的方法。該方法包括對聲碼器數據產生至少一個每幀能量估計,以及利用相關的能量估計從聲碼器數據中搜索詞的邊界這兩個步驟。如果找到了一個詞,就從與這一個詞相關的聲碼器數據中提取出LPC詞參數,並從提取出來的LPC詞參數中計算出識別特徵。最後將識別特徵與先前存儲的其它詞的識別特徵比較,從而識別說出來的詞。
此外,根據本發明的一個優選實施方案,能量是從在碼器數據中找到的殘差數據估計出來的。可以用很多的方法來進行這一估計。在一個實施方案中,從聲碼器數據中重建出殘差數據,得到的估計就是殘差數據的範數。另一個實施方案是從聲碼器數據中提取一個音調-增益(pitch-gain)值,作為能量估計。在再一個實施方案裡,從聲碼器數據中提取出音調-增益值、滯後值(lag values)和剩餘數據(remnantdata)。從剩餘數據中產生剩餘信號,由此產生一個剩餘能量估計。非剩餘能量估計是利用音調-增益值和滯後值所定義的前一個能量估計值從殘差信號的非剩餘部分產生的。最後將這兩個能量估計,剩餘能量和非剩餘能量合併。
更進一步,根據本發明的一個優選實施方案,聲碼器數據可以來自以下聲碼器中的任何一個RPE-LTP全速率或半速率,QCELP 8和13kbps,EVRC,LD CELP,VSELP,CS ACELP,增強型全速率聲碼器和LPC10。
本發明的又一個優選實施方案提供了一種數字蜂窩電話,它包括一個行動電話作業系統、一個基於LPC的聲碼器和一個基於聲碼器的語音識別器。該識別器包括一個前端處理器,對聲碼器數據進行處理以確定一個詞是什麼時候說出來的,並產生這一說出來的詞的識別特徵,該識別器還包括一個識別器,它至少能夠識別出說出來的詞是一組基準詞中的哪一個。
根據本發明的另一個實施方案,前端處理器有一個能量估計器、一個LPC參數提取器和一個識別特徵發生器。能量估計器利用構成聲碼器數據一部分的殘差信息估計語音信號的能量。LPC參數提取器提取聲碼器數據的LPC參數。識別特徵生成器從LPC參數生成識別特徵。
更進一步,根據本發明的一個優選實施方案,前端處理器可以有選擇性地與多種聲碼器一起工作。
附圖簡述通過下面的詳細描述並參考以下附圖,可以獲得對本發明更全面的理解。
圖1是現有技術中有語音識別功能的蜂窩電話的一個框圖;圖2是現有技術中基於LPC的語音識別方法的流程圖;圖3是一個說出來的詞的能量圖;圖4是壓縮語音數據的結構示意圖;圖5是按照本發明的一個優選實施方案構成和工作的有一個基於聲碼器的語音識別器的一個蜂窩電話的框圖;圖6是本發明一個優選實施方案中一種語音識別方法的流程圖;圖7是從殘差信號中估計出來的一個說出來的詞的能量圖;圖8是有利於理解本發明工作過程的殘差信號的示意圖;圖9是GSM解碼器的一個框圖;和圖10是從估計的殘差信號中估計出來的一個說出來的詞的能量圖。
發明詳述有很多種語音壓縮算法,最常用的是那些基於線性預測編碼(LPC)的算法。本發明的申請人認識到,由於多數語音識別算法都是利用線性預測編碼分析以便從語音信號中提取參數,就可以將壓縮語音信號的元素提供給語音識別器,以便顯著地降低語音識別器的分析量。因此,本發明是一個實現在蜂窩行動電話的微控制器或CPU中的基於聲碼器的語音識別器,下面將參考圖5、6和7詳細說明。
線性預測分析下面簡要說明基於LPC的聲碼器16的工作原理。對語音編碼的一般性討論,與本說明相比,包括對線性預測編碼更加詳細的說明,可以在Andreas S.Spanias在電氣與電子工程師學會會報,1994年10月,第82卷第10期,第1541-1582頁上發表的文章「語音編碼綜述」中找到。
聲碼器16將語音信號分成一系列的幀,每一幀的長度為N,通常包括大約20ms的語音信號。聲碼器16對每一幀進行線性預測編碼(LPC)分析。
線性預測編碼用以下方程描述語音信號y(n)等式1y(n)=a1y(n-1)+a2y(n-2)+…+apy(n-p)+ε(n)其中ai叫做LPC係數,ε(n)叫做殘差信號。每一幀通常都有p個LPC係數ai,殘差信號ε(n)的長度是N。LPC係數和殘差信號構成幀的參數。聲碼器通常還至少在音調和增益值方面對殘差信號ε(n)進行參數化。聲碼器還可以產生LPC聲碼器領域中眾所周知的基於LPC的許多參數中的任意一種,例如倒頻譜係數、MEL倒頻譜係數、線譜對(LSP)、反射係數、對數面積比(LAR)係數等等,所有這些都可以很容易地從LPC係數計算出來。
接著對獲得的值進行編碼,從而產生典型的語音壓縮幀,例如圖4所示的幀52。語音壓縮幀52包括編過碼和/或參數化的LPC係數ai和編過碼的殘差信號ε(n)。
基於聲碼器的語音識別器現在參考圖5,它說明的是蜂窩電話中一個基於聲碼器的語音識別器50。由於蜂窩電話與圖1所示現有技術電話相似,因此圖中相同的數字就表示相同的單元。還要參考圖6和7,它們有助於理解基於聲碼器的語音識別器50的操作。
圖5中的蜂窩電話包括麥克風10、揚聲器12、轉換單元14、聲碼器16、作業系統18、射頻接口單元19和天線20。另外,圖5中的蜂窩電話包括基於聲碼器的語音識別器50,用於接收聲碼器16產生的基於LPC的壓縮語音信號作為輸入。
根據本發明的一個優選實施方案,基於聲碼器的語音識別器50是在CPU 51裡實現的,CPU 51還實現作業系統18。裝置51可以是一個CPU,就象所標明的那樣,或者是一個微控制器。由於語音識別器50不分析語音信號,就可以用任意一種微控制器或者CPU來實現語音識別器50,包括處理能力有限並且不接收語音信號的那些微控制器或者CPU。
圖6說明基於聲碼器的語音識別器50處理象幀52那樣的壓縮幀的基本形式。
象在現有技術中那樣,一旦收到幀(步驟58)就確定幀的能量。而在本發明中,能量不是從取樣數據而是從聲碼器數據中估計出來的(步驟60),而且能量估計不需要重建取樣數據。
本發明的申請人發現可以利用殘差信號ε(n)來估計能量,因為在本領域裡大家都知道,殘差信號描述的是通過聲道的空氣的壓力,而LPC參數描述的則是聲道的結構因而通常與語音音量無關。結果是,殘差信號與一個人說話的聲音是大還是小密切相關。
根據本發明的一個優選實施方案,估計能量的一種方法是確定每一幀殘差信號的能量,或者如果幀分成了子幀,就是確定每一子幀的能量。這用數學公式表示就是等式2Ei=n=1M(n)2]]>其中
是第i幀的能量,殘差信號ε(7)是從聲碼器數據中重建出來的,數字M是幀或子幀中的取樣點數。
圖7說明的是從說出來的詞「RICHARD」的重建殘差信號得到的估計的能量信號。可以看出,圖7中的估計出來的能量信號與圖3中的能量信號並不完全相同。但估計出來的能量信號與現有技術中的能量信號相關性非常好。圖7中信號的開頭和結尾,分別標成62和63,也都是在大約0.37s和0.85s處。
本發明還包括從聲碼器數據估計能量的其它方法,下面將介紹其中的一些。
回到圖6,基於聲碼器的語音識別器50在估計的能量信號中搜索(步驟64)詞的邊界。如果需要,語音識別器50可以利用LPC參數的任何特徵(例如它們的平均值和/或方差)來確定詞的邊界位置,這些參數的特徵在詞的邊界上急劇地變化。
如果找到一個詞,就象步驟66中檢驗出來的一樣,識別器50就從聲碼器數據中提取出LPC詞參數(步驟68)。在步驟68裡通常還要對語音壓縮幀52中的編碼LPC參數解碼並將它們轉換成LPC係數。
然後識別器50從提取出來的LPC係數中計算(步驟70)它的識別特徵。這些識別特徵可以是基於LPC的參數中的任意一個,例如倒頻譜係數、MEL倒頻譜係數、線譜對(LSP)、反射係數、面積比(LAR)係數等等,所有這些都可以很容易地從LPC係數計算出來。這樣,如果聲碼器使用的是一種LPC參數,識別器50使用的是另一種LPC參數,識別器50就可以直接或者通過LPC係數將LPC參數從一種轉換成另一種。
最後識別器50利用從步驟70獲得的識別特徵將輸入信號識別成它的基準庫裡的一個基準詞,或者訓練出一個新的基準詞存入它的庫中。由於識別器50產生的識別特徵可以與本領域裡的一樣,這一步驟與現有技術裡的識別/訓練步驟40一樣,它也是這樣標註的。Prentice-Hall1993年出版的Lawrence Rabiner和Biing Hwang Juang的書《語音識別基礎》描述了許多合適的識別器50,這裡將它引做參考。
應當理解,步驟60-70是將聲碼器數據轉換成識別/訓練步驟所需要的識別特徵。有許多種基於LPC的聲碼器,每一種對語音信號的操作多少都有些不同。可以將步驟60-70修改以適用於每一種聲碼器,以便產生相同的識別特徵,而不考慮聲碼器類型。因此步驟60-70構成識別/訓練步驟40的處理「前端」。
本發明包括一種基於聲碼器的語音識別器,它有多個前端和一個識別/訓練單元。這對於賣出去用於在多種數字蜂窩電話系統中工作的那些行動電話非常有用,這裡的每一種蜂窩電話系統都使用不同種類的聲碼器。有了許多前端,本發明的語音識別器就可以與許多種聲碼器協同工作。
用於確定詞的邊界的能量估計方法一些簡單的聲碼器,例如美國國防部標準1015 V.53裡描述的叫做線性LPC 10的聲碼器,只用音調和增益值描述殘差信號ε(n)。現在參考圖8,其中是一個濁音信號的殘差信號實例,該信號有許多重複的尖峰70,這些尖峰70的幅度都差不多。將相鄰兩個尖峰70之間的距離定義為音調(pitch)P,這些尖峰的幅度定義為增益G。清音信號有增益值,但沒有音調值。
因此,幀或子幀殘差信號能量可以用增益值G來估計。在這一個實例裡,不是通過重建殘差信號ε(n),而是通過從壓縮語音數據中提取殘差信號ε(n)的一個參數增益值G,來估計幀或子幀的能量。
其它的聲碼器,例如全球移動通信系統(GSM)、時分多址(TDMA)和碼分多址(CDMA)數字蜂窩通信系統中的聲碼器,將當前幀或子幀的殘差信號與前面一些幀的殘差信號的並置版本做相關運算。當前幀的殘差信號與前面的殘差信號最相近的點,與音調增益(pitch gain)PG相乘以後,叫做LAG值。然後聲碼器確定一個「剩餘信號」,它是前一個殘差信號乘以音調增益PG與當前殘差信號的差。於是當前殘差信號的特徵是音調增益PG、LAG值和剩餘信號。
對於後一種聲碼器,當前幀或子幀,i,的能量可以利用以下公式從剩餘信號和殘差信號的非剩餘部分估計出來等式3E~i=mELADm+Eremm]]>(m=1或者2)ELAG=PG1FL{(LAGmod40)Ei-[LAGFL]+(FL-LAGmod40)Ei-[LAGFL]}]]>其中Erem是剩餘信號的能量估計,ELAG是殘差信號的非剩餘能量,它是從比當前幀或子幀晚
幀或子幀的幀或子幀的能量和音調增益獲得的。可以通過重建剩餘信號來獲得前一個值,這一運算相對簡單,或者通過任何其它方法來獲得前一個值。符號
和
分別表示「不大於變量的最大整數」和「不小於變量的最小整數」運算,開m次方運算不必進行。
GSM聲碼器的能量估計現在參考圖9,其中說明的是構成部分GSM標準的聲碼器的解碼器部分。圖9與歐洲電信標準協會1992年3月份版的I-ETS 300036規範中,第34頁的圖3、4類似。解碼器的細節可以在該規範中找到,在這裡將該規範引做參考。為清楚起見,下面只說明解碼器中對理解本發明的能量和特徵計算有用的有關部分。
圖9用粗線表示輸入數據,用細線表示內部信號。輸入數據有Mcr、Xmaxcr、Xmcr、bcr、Ncr和LARcr值,它們在I-ETS規範裡都有定義。
圖9表明這一解碼器有一個RPE解碼器80、一個長期預測器84、一個短期合成濾波器86和一個去加重器88。RPE解碼器80接收Mcr、Xmaxcr和Xmcr信號,並產生一個剩餘信號e′r。長期預測器84利用bcr和Ncr信號從剩餘信號e′r產生一個殘差信號d′r。短期合成濾波器86從殘差信號d′r和以LARcr數據形式發送的短期LPC參數產生語音信號。
與前面一樣,有一種能量計算方法是計算殘差信號d′r的第一或第二範數如下所示等式4E~i=n=039|dr[n]m]]>(m=1或者2)另一個能量計算方法是利用剩餘信號e′r和長期預測器84的內部數據值b′r和N′r。具體而言,預測器84有一個參數解碼器90、一個延遲單元92、一個乘法器94和一個加法器96。解碼器90將輸入值bcr和Ncr變換成內部數據值b′r和N′r,這裡的b′r是一個乘數,與前面的音調增益PG相似,N′r是一個延遲量,與前面的LAG值相似。長期預測器84將信號d″r加到剩餘信號e′r上去,其中,信號d″r是前面的殘差信號d′r(1-N′r)經過延遲單元92延遲以後,再在乘法器94裡用b′r相乘以後得到的結果。
可以用等式3估算能量,其中的LAG和PG值用N′r和b′r代替,並將FL的值取為40。另外,剩餘的能量估計Erem用以下等式計算等式5Erem=n=039|er[k]m]]>
現在參考圖10,它說明的是利用上述公式估計出來的能量。詞的開頭和結尾兩個邊界,分別標為98和99,與現有技術裡的位置相同。
從提取出來的參數估計能量的另一種方法也是利用前面的N′r和b′r,其中的FL取值40,用以下公式估計剩餘的能量估計,Erem等式6Erem=|Xmax cr|m回到圖9,LPC的詞參數是從短期合成濾波器86內的發送數據裡提取出來的,該濾波器中有一個LAR解碼器100、一個內插器102、一個反射係數確定單元140和一個濾波器106。單元100、102和140一起將收到的LARcr數據轉換成反射係數r′r,再將反射係數容易地變換成LPC係數。
就象這裡參考圖6所做的介紹一樣,一旦提取出LPC係數,就將它們變換(步驟70)成識別器/訓練步驟需要的識別特徵。
本領域裡的技術人員應當明白,儘管只針對GSM數字蜂窩通信系統裡的聲碼器做了詳細的介紹,但是本發明仍然可以用於所有類型的蜂窩通信系統和所有類型的基於LPC的聲碼器。對於每一種聲碼器,必須分析存儲在壓縮語音數據裡的信息類型,以確定計算能量和特徵時如何利用它。壓縮語音數據的詳細介紹可以參見定義每一個聲碼器的標準。
下表列出了一些現有的蜂窩通信系統、它們使用的聲碼器和定義聲碼器和/或系統的標準。數字蜂窩通基於LPC的聲碼器 標準信系統GSMRPE-LTP全速率I-ETS 300 036 6.1I-ETS 300 581-2第4RPE-LTP半速率版CDMAQCELP 8 kbps, IS 96 A13kbpsEVRCIS 127LD CELP ITU G.728TDMAVSELP IS 54 BPHS,PCSCS ACELPITU G.729PCS-TDMA增強型全速率聲碼器 IS 641PDC(日本) VSELP RCR STD 27本領域的技術人員應當明白,本發明並不局限於上面的具體描述。相反,本發明的範圍是由以下權利要求規定的。
權利要求
1.一種利用基於線性預測編碼(LPC)的聲碼器數據識別說出來的詞而不需要完全重建語音數據的方法,其中的聲碼器數據構成一系列的幀,該方法包括以下步驟對於所述聲碼器數據的每一幀至少生成一個能量估計;利用相關的能量估計搜索所述聲碼器數據中詞的邊界;如果找到一個詞,就從與這一個詞相關的聲碼器數據中提取LPC詞參數;從提取出來的LPC詞參數計算識別特徵;和將所述識別特徵與以前存儲的其它詞的識別特徵進行匹配,從而識別說出來的詞。
2.一種利用基於線性預測編碼(LPC)的聲碼器數據準備識別說出來的詞而不需要完全重建語音數據的方法,其中的聲碼器數據構成一系列的數據幀,該方法包括以下步驟對於所述聲碼器數據的每一幀至少生成一個能量估計;利用相關的能量估計搜索所述聲碼器數據中詞的邊界;如果找到一個詞,就從與這一個詞相關的聲碼器數據中提取LPC詞參數;從提取出來的LPC詞參數計算識別特徵。
3.根據權利要求2的一種方法,其中所述的生成步驟包括從在所述聲碼器數據中找到的殘差數據估計能量的步驟。
4.根據權利要求3的方法,其中估計能量的步驟包括從所述聲碼器數據重建殘差數據並計算所述殘差數據的範數的步驟。
5.權利要求3的方法,其中估計能量的步驟包括從所述聲碼器數據中提取音調-增益值並將提取出來的音調-增益值用作所述能量估計的步驟。
6.根據權利要求3的方法,其中所述生成步驟包括以下步驟從所述聲碼器數據中提取音調-增益值、滯後值和剩餘數據;從所述剩餘數據重建剩餘信號;生成所述剩餘信號的能量估計;利用所述音調-增益值和前面用所述滯後值定義的能量估計,生成所述殘差的非剩餘部分的能量估計;和將所述剩餘和非剩餘能量估計合併在一起。
7.根據權利要求1的方法,其中聲碼器數據的類型是以下聲碼器中任意一個產生的數據的類型RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LD CELP、VSELP、CS ACELP、增強型全速率聲碼器和LPC10。
8.根據權利要求2的方法,其中所述聲碼器數據的類型是以下聲碼器中任意一個產生的數據的類型RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LD CELP、VSELP、CS ACELP、增強型全速率聲碼器和LPC10。
9.利用基於LPC的聲碼器數據作為語音識別系統的輸入。
10.一種數字蜂窩電話,包括一個行動電話作業系統;一個聲碼器,利用至少線性預測編碼(LPC)壓縮語音信號由此產生聲碼器數據;和一個基於聲碼器的語音識別器,包括一個前端處理器,用來處理所述聲碼器數據,以確定一個詞是什麼時候說出來的,並產生所述說出來的詞的識別特徵;和一種識別器,至少能夠將說出來的詞識別為一組基準詞中的一個。
11.根據權利要求10的數字蜂窩電話,其中的前端處理器包括一個能量估計器,利用構成所述聲碼器數據一部分的殘差信息估計語音信號的能量;一個LPC參數提取器,用於提取所述聲碼器數據的LPC參數;和一個識別特徵生成器,從所述LPC參數生成所述識別特徵。
12.根據權利要求10的蜂窩電話,其中的前端處理器可以有選擇地與多種聲碼器一起工作。
13.根據權利要求10的蜂窩電話,其中的聲碼器是以下聲碼器中的任意一種RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LD CELP、VSELP、CS ACELP、增強型全速率聲碼器和LPC10。
14.一種基於聲碼器的語音識別器,可以利用基於LPC的聲碼器產生的數據進行工作,該語音識別器包括一個前端處理器,用來處理所述聲碼器數據,以確定一個詞是什麼時候說出來的,並產生所述說出來的詞的識別特徵;和一種識別器,至少能夠將所說出來的詞識別為一組基準詞中的一個。
15.根據權利要求14的語音識別器,其中的前端處理器包括一個能量估計器,利用構成所述聲碼器數據一部分的殘差信息估計語音信號的能量;一個LPC參數提取器,用於提取所述聲碼器數據的LPC參數;和一個識別特徵生成器,從所述LPC參數生成所述識別特徵。
16.根據權利要求15的語音識別器,其中的能量估計器包括一個殘差能量估計器,用來從在所述聲碼器數據中找到的殘差數據估計能量。
17.根據權利要求16的語音識別器,其中的殘差能量估計器包括一個殘差數據重建器,用來從所述聲碼器數據重建殘差數據,還包括一個範數生成器,它能生成所述殘差數據的範數並產生所述能量估計。
18.根據權利要求16的語音識別器,其中的殘差能量估計器包括一個提取器,它能從所述聲碼器數據中提取音調-增益值,並產生所述能量估計。
19.根據權利要求16的語音識別器,其中的殘差能量估計器包括從所述聲碼器數據中提取音調-增益值、滯後值和剩餘數據的一個提取器;從所述剩餘數據重建剩餘信號的一個重建器;產生所述剩餘信號的能量估計的一個剩餘能量估計器;一個非剩餘能量估計器,利用所述音調-增益值和所述滯後值定義的前面的能量估計,產生所述殘差數據的非剩餘部分的一個能量估計;和合併所述剩餘能量估計和非剩餘能量估計從而產生所述能量估計的一個合併器。
20.根據權利要求14的語音識別器,其中的聲碼器是以下聲碼器中的任意一種RPE-LTP全速率和半速率、QCELP 8和13kbps、EVRC、LDCELP、VSELP、CS ACELP、增強型全速率聲碼器和LPC10。
全文摘要
一種利用基於線性預測編碼的聲碼器數據識別說出來的詞而不需要完全重建語音數據的基於聲碼器的語音識別器。該識別器對於所述聲碼器數據的每一幀至少生成一個能量估計(60)並利用相關的能量估計搜索所述聲碼器數據中詞的邊界(64)。如果找到一個詞(66),就從與這一個詞相關的聲碼器數據中提取線性預測編碼詞參數(68)並從提取出來的線性預測編碼詞參數計算識別特徵(70)。最後,將所述識別特徵與以前存儲的其它詞的識別特徵進行匹配(40),從而識別說出來的詞。
文檔編號G10L15/02GK1273662SQ98808942
公開日2000年11月15日 申請日期1998年7月22日 優先權日1998年1月8日
發明者耶胡達·赫什科維茨, 加布裡埃爾·伊蘭 申請人:先進識別技術有限公司