分布式語音識別系統中語音識別的方法和設備的製作方法
2024-03-29 06:32:05 1
專利名稱:分布式語音識別系統中語音識別的方法和設備的製作方法
技術領域:
本發明涉及一種語音識別的方法和設備,尤其涉及一種分布式語音識別系統中語音識別的方法和設備。
背景技術:
自動語音識別(ASR)是根據語音波形中所包括的信息自動識別語音指令類型的方法。根據話音而非物理的密鑰,ASR已經引導了新一代的安全設備,並且已經可以實現完全的「免持」或「免提」特性,例如話音撥號和話音信息檢索。
在最高級上,所有的ASR系統為特徵提取(也稱作信號處理前端)和特徵匹配(也稱作信號處理後端)而處理語音。特徵提取是從一個語音輸入中提取少量數據來表示所述語音輸入的方法。特徵匹配是通過比較所提取的數據與一個已知的數據集來識別出所述語音輸入中所包含的指令類型的方法。在一個標準的ASR系統中,由一個處理單元執行這兩個功能。
然而,與使用原始未修改的語音作為輸入的ASR系統的性能相比,使用諸如在一條移動或無線信道上傳輸的語音作為輸入的ASR系統的性能可能明顯很低。這種系統性能上的惡化可能是因為在傳輸的語音中編碼算法以及信道傳輸誤碼所引入的失真。
分布式語音識別(DSR)系統試圖通過使特徵提取和特徵匹配分離和具有由安裝在兩個不同位置上的兩個不同的處理單元執行的兩種方法來校正因語音傳輸所導致的系統性能惡化。例如,在包括第一通信設備(例如一個移動單元)和第二通信設備(例如一臺伺服器)的DSR移動或無線通信系統或網絡內,移動單元僅執行特徵提取,即移動單元從語音輸入中提取和編碼識別特徵。然後,移動單元在一條錯誤保護數據信道上將編碼特徵發送給伺服器。伺服器接收編碼識別特徵,並僅執行特徵匹配,即伺服器匹配編碼特徵與一個已知數據集中的特徵。
使用所述方法,編碼失真被最小化,並且傳輸信道錯誤對所述識別系統的性能僅產生很小的影響。而且,移動單元只需要執行計算量較少的特徵提取,將計算量較多的特徵匹配留給伺服器。通過將計算量較多的活動保留給伺服器的處理器,為移動單元的處理器保留了更大的設計靈活性,因為當前強調的是單元小型化,所以處理器的大小和速度一般非常重要。
歐洲電信標準協會(ETSI)最近公開了一個用於DSR特徵提取和壓縮算法的標準。歐洲電信標準協會標準ES 201 108,語音處理,傳輸和質量方面(STQ);分布式語音識別;前端特徵提取算法;壓縮算法(Speech Processing,Transmission and Quality aspects(STQ);Distributed speech recognition;Front-end feature extration algorithm;Compression algorithms),2000年4月1.1.2版(在下文中稱作「ETSI標準」),在此全文引用作為參考。雖然存在多種編碼語音輸入數據的方法,例如線性預測(LP),ETSI標準包括一個特徵提取算法,它提取並編碼語音輸入作為一個對數能量(log-energy)值和一系列用於每個幀的Mel-頻率倒譜係數(MFCC)。這些參數基本上捕獲了語音輸入的頻譜包絡信息,並且在大多數大詞彙量語音識別器中廣泛地使用。ETSI標準還包括用於(通過矢量量化)壓縮和錯誤保護(循環冗餘校驗碼)的算法。ETSI標準還描述了用於比特流解碼和信道錯誤降低的合適的算法。在一個10毫秒的更新間隔上並添加了同步和首部信息,數據傳輸速率達到4800比特/秒。
總而言之,諸如根據ETSI標準所設計的一個DSR系統為移動通信網絡的實現提供了很多優點。這樣一種系統提供與ASR系統相同的識別性能,但具有可以合併在一個移動單元內的低複雜性的前端和用於傳輸編碼識別特徵的低帶寬要求。
DSR系統的缺點在於為了存儲和/或驗證目的在後端不能獲得原始語音輸入。能夠獲得原始的話音輸入對於下述情況將是有幫助的(i)要求人力協助的後端應用,以便例如通過允許比較使用遠程口授系統生成的文件與原始的語音輸入來允許所述文件的手工校正,或者當識別工作從一個DSR系統切換倒一個操作員時允許平滑轉換;(ii)預防性地存儲法律上敏感的信息,例如在諸如發出證券訂單的金融交易過程中記錄確切的陳述;和(iii)在資料庫收集過程中的最終驗證,例如用於訓練批處理方式(尤其是遞增模式)和系統調諧中的識別器。
另一方面,如果使用一個標準的ASR系統,則原始語音在後端上是可用的。然而,如上所述,當在移動或無線應用中使用時,ASR具有顯著的失真問題。也就是說,以在所希望的大約4800bps的比特率上編碼的語音明顯地降低了識別器的性能。另外,可以提供一個獨立的高質量語音編碼器,但是這將要求顯著地增加帶寬。
附圖的簡要描述
圖1是根據本發明一種實施例的使用語音編碼和語音重構方法的分布式語音識別系統的示意圖;圖2是圖示在圖1所示的系統中使用的根據本發明一種實施例的語音編碼方法的流程圖;圖3是圖示在圖1所示的系統中使用的根據本發明一種實施例的語音重構方法的流程圖;圖4是根據本發明一種實施例的語音編碼和語音重構設備的示意圖;圖5是圖示由圖4所示的語音編碼設備使用的語音編碼方法的流程圖;
圖6是圖示由圖4所示的語音重構設備使用的語音激發確定方法的流程圖;和圖7也是圖示由圖4所示的語音重構設備使用的語音激發確定方法的流程圖。
實施例的詳細描述根據本發明的實施例,提供了一種語音重構的方法和設備。具體而言,在一種分布式語音識別系統中,所述系統包括第一通信設備,它接收一個語音輸入,編碼代表語音輸入的數據,並傳輸編碼數據;和第二遠程通信設備,它接收編碼數據並比較所述編碼數據與一個已知的數據集,一種在第二通信設備上重構語音輸入的方法,包括接收包括編碼頻譜數據和編碼能量數據的編碼數據的步驟。所述方法還包括解碼編碼頻譜數據和編碼能量數據以確定頻譜數據和能量數據的步驟。所述方法還包括組合所述頻譜數據和能量數據以重構語音輸入的步驟。根據本發明一種實施例的設備包括一個安裝有一程序的處理器,所述程序控制所述處理器以接收和解碼所述編碼數據;和一個語音合成器,它組合解碼數據以重構語音輸入。
圖1圖示一個通信網絡或系統20,具體而言,一個移動或無線電頻率通信系統。儘管所圖示的系統20是一個移動或無線電頻率通信系統,所述系統20也可以是任意類型的通信系統,例如一個有線系統或者一個使用除了無線頻率通信之外的其它通信方法的系統。
系統20包括一個移動通信設備22(如一個移動站)和一個固定通信設備24(如一個基站),行動裝置22通過使用無線電頻率傳輸與固定設備24通信。固定設備24又在一條有線連接上與一臺伺服器26通信,伺服器26與遠程站28亦如此。使用這樣一個系統20,一個用戶30可以與遠程站28通信,也可以與遠程站28的相關用戶32通信。
雖然在圖1中僅圖示了一個行動裝置22、固定設備24、伺服器26和遠程站28,顯然正如一般情況,所述系統20可以包括與多個固定設備24通信的多個行動裝置22,固定設備24又與多臺伺服器26通信,後者又與多個遠程站28通信。為了便於解釋,圖示了一個行動裝置22、固定設備24、伺服器26和遠程站28,但是在此所描述的本發明並不受所圖示系統20的大小的限制。
系統20是一個分布式語音設備系統,即行動裝置22執行特徵提取,伺服器26執行特徵匹配。系統20還使用本發明的一種實施例在伺服器26上提供重構數據以存儲和/或驗證。在圖2中具體圖示了行動裝置22用於提取識別特徵從而編碼一個語音輸入的方法。類似地,在圖3中圖示了伺服器26用於重構語音信號的方法。
如圖2所示,行動裝置22在步驟34接收一個語音輸入。行動裝置22在步驟36確定和編碼代表語音輸入能量的數據。在步驟38,行動裝置22使用例如LP參數、MFCC或者某種其它方法來確定和編碼代表語音輸入頻譜的數據。在步驟39,行動裝置22可選擇地確定和編碼語音輸入的其它相關數據,例如類型和音調周期數據。在步驟40組合在方框36、38和(可選地)39上確定的數據以便傳輸。在圖2中的步驟42,將組合後的編碼信號從行動裝置22發送到固定設備24,並且隨後,在圖3中的步驟44,從固定設備24發送由伺服器26接收。
同樣如圖3所示,伺服器26在步驟46解碼和確定能量數據。伺服器26還在步驟48解碼和確定頻譜數據。伺服器26還可選地在步驟49解碼和確定傳輸來的語音輸入的其它相關數據。伺服器26在步驟50組合在步驟46和48確定的能量數據和頻譜數據與在步驟49確定的附加語音數據以重構在步驟34接收到的語音輸入。在步驟52輸出重構的語音。
使用這一系統20,除了編碼形式的語音輸入之外,在伺服器26上還可以獲得重構形式的語音輸入,並可以傳送給遠程站28。所述重構形式的語音輸入例如可以由用戶32檢查遠程口授系統所生成的一個文件。而且,通過主要將行動裝置22生成的編碼語音信號用於語音輸入的重構,在未顯著增加行動裝置22和固定設備24之間傳輸信道帶寬的情況下,可以在遠程站28上獲得重構的語音。
現在將參考圖4至圖7解釋設備22和26的詳細結構和語音編碼和重構的具體方法。
行動裝置22的詳細結構在圖4的左半部圖示。行動裝置22包括一個語音輸入設備54(例如一個麥克風),它連接到一個DSR信號生成器56和一個語音聲碼器56-分析器58。DSR信號生成器56提取通過語音輸入設備54接收到的語音輸入的相關頻譜數據,並生成一個代表頻譜數據的編碼信號。聲碼器-分析器58提取可以在後端上用於重構語音的語音輸入的相關附加數據。
組合器60將來自DSR信號生成器的編碼信號和由聲碼器-分析器58提取的附加數據集合成一個統一信號,所述信號被發送給一個連接到組合器60的發送器62。在圖1所示的系統20的實施例中,發送器62是一個無線電頻率發送器或收發信機,儘管根據本發明的方法可以由其它類型的通信系統使用,在這種情況下,將選擇發送器以與所選擇的系統相互兼容。
現在參考圖5解釋DSR信號生成器56的操作方法。在步驟64,由DSR信號生成器56接收語音輸入。在步驟66,例如在8000抽樣/秒的抽樣頻率(Fs)和16比特/抽樣上將語音輸入從模擬轉換成數字。數位化後的語音在步驟68通過一個直流偏置消除濾波器,並在步驟70分割成重疊幀。幀的大小取決於抽樣頻率。對於容納三種不同抽樣頻率8、11和16KHz的ETSI標準來說,幀的大小可以分別是200、256和400抽樣。
然後,在步驟72,計算幀的能量等級,並確定其自然對數。所得到的數值也稱作對數能量值。
然後,成幀數位化的語音信號在步驟74通過一個預加重濾波器以預加重高頻分量。然後在步驟76給每個語音幀加窗口(例如使用一個漢明窗),並在步驟78使用快速傅立葉變換(「FFT」)將其轉換到頻域。類似於幀大小,所使用的FFT的大小取決於抽樣頻率,例如256點FFT用於8和11kHz的抽樣頻率,而512點的FFT用於16kHz的抽樣頻率。
然後,通過一個稱作Mel-濾波的處理將64Hz和Fs/2(例如8kHz抽樣頻率的4kHz)之間頻率範圍內的FFT幅值轉換到Mel-頻域。執行到Mel-頻域的轉換是因為心理學研究表明人類對語音信號的聲頻譜的感覺並不遵從線性量度。因此,對於具有一個以赫茲為單位測量的實際頻率f的每個音頻,可以在第二量度上表示一個主觀音調(subjective pitch),所述第二量度稱作Mel-頻率量度。
在步驟80上出現的Mel-濾波處理如下。首先使用下面的表達式將頻率範圍(例如64Hz到4000Hz)變形映射(warp into)成Mel-頻率量度。
Mel(f)=2595.0*log10(1+f700.0)]]>使用這個等式,例如對應於頻率64Hz和40000Hz的Mel頻率分別是98.6和2146.1。然後,將這個Mel-頻率範圍分割成23個大小相同、半重疊的頻帶(也稱作信道或存儲包(bin)),每個頻帶170.6寬,每個頻帶的中心間距85.3。第一頻帶的中心位於98.6+85.3=183.9,最後一個頻帶的中心位於2146.1-85.3=2060.8。這些在Mel-頻域內大小相同的頻帶對應於線性頻域內大小不同的頻帶,其中頻帶大小隨著頻率軸增加。然後,使用一個三角加權窗口(在中心的加權等於1.0,在兩端的加權等於0.0)來平均(濾波)落入每個頻帶內的FFT幅值。濾波後的頻帶輸出隨後經過一個自然對數操作。
然後在步驟82,使用一個23點的DCT(離散餘弦變換)將在步驟80生成的23個對數頻譜值轉換到對數頻率倒譜域。僅計算前13個數值(C0至C12),丟棄即不計算其餘10個數值(C13至C22)。然後在步驟84壓縮(量化)在步驟72計算出的幀對數能量和在步驟82計算出的13個對數頻率倒譜值(也稱作Mel-頻率倒譜係數或MFCC),並在步驟86發送給固定設備24。對於根據ETSI標準操作的系統20來說,每10毫秒更新一次MFCC和對數能量值。
如上所述,聲碼器-分析器58還接收語音輸入。具體而言,聲碼器-分析器58分析所述輸入以確定除了可以從DSR-編碼語音獲得的數據之外的、可以由伺服器26使用的語音輸入的其它相關數據以重構語音。由聲碼器-分析器58提取的具體數據取決於與伺服器26相連的語音聲碼器的特性,所述伺服器26將合成重構後的語音。例如,編碼激勵線性預測(CELP)聲碼器需要用於將準備的每個語音子幀的密碼本目錄。對於參數型聲碼器(例如正弦型聲碼器)來說,可能還需要其它激勵數據,例如類型(話音、非話音、等等)、音調周期以及諸如子幀能量級的更高解析度的能量數據。
人們將認識到當比特率低於大約4800bps時,CELP編碼器所合成的語音質量將迅速下降。相反地,參數型聲碼器在較低的比特率上提供合理的語音質量。因為一個DSR系統的主要要求之一是低數據傳輸速率,所以一般將在伺服器26內使用一個參數型聲碼器,尤其是一個正弦型聲碼器。因此,根據本發明的優選實施例,語音聲碼器-分析器58為每個語音幀確定類型、音調周期和子幀能量數據,但是也可以選擇省略子幀能量數據,因為可以通過從對數能量值中內插來計算子幀能量。
聲碼器-分析器58最好在大約20毫秒的幀大小上執行操作,即每20毫秒傳輸一次參數。在每個幀內,將兩個比特用於類型參數,即指示一幀是非語音、話音、非話音、混合話音、等等。最好使用一個基於能量的話音活動檢測器(VAD)來進行語音/非語音分類,同時根據包括周期相關性(在等於一個音調周期的滯後上的標準化相關性)、非周期性能量比(解除相關和原始幀的能量比)和高頻能量比的多個特徵來確定合音合成等級。提供諧波頻率相關信息的音調周期參數一般使用附加的7個比特來表示,所述7個比特用於大約55Hz到420Hz的典型音調頻率範圍。最好使用一個低通濾波後的語音的時域相關性分析來估計所述音調周期。如果將要發送較高解析度的能量數據參數,例如子幀能量參數,這可以使用附加的8個比特來實現。通過一個四維VQ在對數域中量化子幀能量,在一個子幀(每幀4個子幀)上計算非語音幀和非話音幀的能量和在一個音調周期上計算話音幀的能量。也可以組合子幀能量和對數能量值以降低比特率。
假設每20毫秒傳輸一次類型、音調周期和子幀能量值,即如果使用一個ETSI標準系統每兩個DSR幀傳輸一次,大約800至850bps將會添加給數據傳輸速率。如果不傳輸附加的能量數據,可以僅僅將450bps添加給數據傳輸速率。
現在將參考圖4的右半部討論伺服器26的具體結構。根據本發明的一種實施例,接收機88連接到一個常規的DSR參數提取器90和一個DSR/語音處理器92。DSR參數提取器90連接到一個常規的DSR處理器94和一個常規的語音識別器96以比較編碼數據與一個已知的數據集,而DSR/語音處理器92連接到一個語音聲碼器-合成器98(如前面指出的,最好是一個正弦語音聲碼器-合成器)和一個語音輸出(例如揚聲器)100。
參見圖6,DSR/語音處理器92包括一個程序,它如下所述控制所述DSR/語音處理器92確定和解碼DSR編碼頻譜數據,尤其是諧波幅值。在步驟104,將對應於預加重濾波器脈衝響應的MFCC值從所接收的MFCC值中減去以消除預加重的影響和Mel-濾波的影響。然後,在步驟106,轉換MFCC值以為每個所想要的諧波頻率計算對數頻譜值。然後,在步驟108指數化所述對數頻譜值以獲得這些諧波的匹配幅值。典型地,每20毫秒執行一次這些步驟,當然也可以更頻繁地執行計算,例如每10毫秒一次。
圖7更詳細地圖示DSR/語音程序的操作。在步驟110,如上所述,將對應於預加重濾波器脈衝響應的MFCC值從所接收的MFCC值中大體上減去以消除預加重濾波器的影響。另外,作為最後一個步驟,通過將諧波頻率的頻譜幅值除以預加重濾波器在對應的諧波頻率上的脈衝響應可以消除預加重濾波器的影響。然而,除了預加重濾波器之外,因為沿著線性的頻率軸增加的頻帶帶寬,Mel-濾波器加重較高的頻率。Mel-濾波器在任一頻帶中心上的脈衝響應都可以被採用為對應的頻帶帶寬,並且可以為任何其它的頻率使用一個內插值。通過計算預加重濾波器和Mel-濾波器的組合脈衝響應,將諧波頻率的頻譜幅值除以在對應諧波頻率上的組合脈衝響應,能夠在單個步驟中消除兩個濾波器的影響。步驟110實現相同的結果。
然後使用消除預加重濾波器和Mel-濾波器影響的已修改的MFCC值來根據下述步驟估計頻譜幅值。在步驟112確定對應於諧波頻率(可以根據音調周期獲得)的Mel頻率。然後,在步驟114,116,對在諧波的Mel頻率上的已修改的MFCC值執行反離散餘弦變換(IDCT)以將頻率倒譜係數轉換成對數頻率倒譜值。
也就是說,除了頻率倒譜序列的截斷和量化導致的失真之外,MFCC值C0至C12(假設C13至C22為零)的23點IDCT將恢復原始的23個對數頻譜值。然而,這些對數頻譜值對應於23個頻帶的中心頻率。需要其它頻率上的對數頻譜值以為諧波頻率確定轉換後的MFCC值。
為了提高抽樣解析度,可以以23的奇數倍增加IDCT的大小,即(2K+1)×23,其中K>0。這在對應於這些頻帶中心的23個原始Mel-頻率的兩側引入了K個附加的Mel-頻率點。例如,如果K=85,則在第一頻帶中心的左側和最後一個(即第23個)頻帶中心的右側存在85個附加的Mel-頻率點,和在任意兩個連續的頻帶中心之間存在170個附加的Mel-頻率點。在這種情況下,Mel-頻率點的總數是171×23=3933。對於Fs=8000Hz,頻帶中心在Mel-頻率量度上相距85.3,K=85的選擇提高了解析度,所以連續的Mel頻率點僅相距85.3/171=0.499。需注意的是,IDCT的最左和最右的Mel-頻率點並不對應於線性頻率量度上的0和Fs/2(例如4000Hz)。對於我們的這個例子來說,最左的Mel-頻率點在183.9-85×0.499=141.48上,最右的Mel-頻率點在2060.8+85×0.499=2103.2上。在我們的例子中,在線性頻率量度上的對應點分別是93.6Hz和3824.6Hz。一種處理IDCT頻率範圍未覆蓋的頻率的方法是使用最近的頻率點,即將低於93.6Hz的頻率分配給在93.6Hz上的頻率點,類似地,將高於3824.6Hz的頻率分配給在3824.6Hz上的頻率點。另一種方法是使用某種內插法。
使用DCT自身的基本函數作為插值函數,較高解析度的IDCT基本上內插在Mel-頻帶的中心頻率之間。然而,並不必須執行一個3933點的IDCT。相反,為了便於在選定的頻率點上計算IDCT,在步驟118可以使用下式可選擇地預先計算一個12×3933矩陣L的IDCT值。
Li,j=(223)cos((2j+1)*i*2*23*171)]]>其中i=1,2,……,12和j=0,1,……,3932。對應於C0的第零行是隱含的,不需要存儲,因為其數值對於所有的列都是1/23的常數。對應於C13至C22的行不需要存儲,因為這些係數是不可使用的,並假定為零。
給出這個矩陣L以獲得在任意給定Mel-頻率上的對數頻譜值,定位已經計算出IDCT的最近Mel-頻率點,選擇矩陣L的相應列矢量,並形成相應列和已修改的MFCC矢量[C0,C1,…,C12]之間的內積。因此,為了給諧波頻率確定對數頻譜值,例如,在步驟114定位最近的Mel-頻率點,並選擇矩陣L的相應列矢量。而且,在步驟116,形成已修改的MFCC矢量和在步驟114選擇的矩陣L的列矢量之間的內積。
然後,在步驟120指數化轉換後的係數以計算頻譜幅值。
正弦語音聲碼器-合成器98在上述程序的控制下使用這些頻譜幅值、幀能量的相關數據和同樣由DSR/語音處理器92提取的其它數據(例如類型、音調周期和子幀能量),作為具有不同頻率、幅值和相位的多個正弦信號之和來重構語音。具體地說,合成器使用一個語音乘積的正弦模型來重構語音。
s(j)=kAk,jcos(k,j)]]>其中作為多個諧波相關的幅值為A和相位為Φ的正弦曲線之和來合成語音抽樣s(j),j是抽樣標號,k是諧波標號。
典型地,合成處理開始於在每幀中點上的頻率、幅值和相位的計算。所使用的頻率是音調頻率以及可以使用音調周期計算出的它的諧波。所使用的幅值可以是諧波幅值,這可以使用上面討論的方法所確定頻譜幅值和與幀的中點相對應的子幀能量(或者是它的使用對數能量值的一個插值)來估計。例如對於非話音語音來說,幅值可以對應於不必等於諧波頻率的一組頻率,在這種情況下,可以使用上述方法的一般形式和對應於幀中點的子幀能量(或者是它的使用對數能量值的一個插值)來估計這些幅值。所計算的相位取決於類型參數。對於話音語音來說,計算相干相位。對於非話音語音來說,計算隨機的非相干相位。對於混合話音語音來說,話音模型用於低頻,而非話音模型用於高頻。從模型化的相位中消除任意線性的相位分量。
一旦獲得中點頻率、幅值和相位值,就可以計算其它點上的幅值和相位。例如,一旦獲得當前和前一話音幀中點上的幅值,就可以使用線性內插調整在這些點上的能量來計算子幀邊界上的幅值。也可以使用線性內插來計算子幀內的幅值。通過允許相位根據頻率線性地演變,可以計算在不同抽樣標號上的諧波相位。允許頻率在子幀邊界上以從前一數值到當前數值相等的間距變化。使用線性相位校正因子(即輕微的頻移)來解決這種演變所導致的任何相位不連續性。如果前一幀和當前幀的種類不同(例如一個話音,另一個是非話音),或者兩者都是話音幀但是音調周期完全不同,例如加倍,則分別合成這兩個幀並在時域上疊加。
實例1使用一個語音資料庫,在8kHz的頻率上抽樣,使用一個m-IRS濾波器預處理,並包括32個句子對(4男+4女,每人四個句子對)。通過首先估計音調周期以確定諧波頻率,然後從256點FFT的漢明窗口化語音中提取在這些頻率上的幅值,從而為每個話音幀(20毫秒長)獲得原始的諧波幅值。然後,完成上述的DSR編碼方法以計算MFCC矢量。然後使用上面也已經描述過的根據本發明的方法來為來自每個其它MFCC矢量的每20毫秒的幀估計諧波幅值。將N個話音幀上的平均失真D計算為D=1Nn=1n=NDn]]>其中第n個幀的失真由下式給出Dn=1Kik=1k=Ki[20*log10(Mk,n)-20*log10(M~k,n)]]]>其中K是諧波數量,Mk,n和 分別是原始和所估計的諧波幅值。首先為每個幀標準化原始和所估計的幅值以便它們的對數平均值為零。
結果在表1中示出,其中也體現了量化和截斷的影響。
表1
實例2為了估計根據本發明的方法的質量,還執行一個主觀平均意見分(MOS)測試。為此目的使用在實例1中使用的同一語音資料庫。在測試中總共包括32種情況。包括了幾種MNRU的情況和編碼標準作為參考,以確保跨越質量等級的整個範圍。由一組32個自然聽眾根據5點量度極差(1)、差(2)、中等(3)、好(4)和極好(5)來評估語音質量。在隔音室內執行測試,並通過一個單聲道耳機來播放語音抽樣。
MOS數量(在256投票上平均)如下原始的未編碼語音得分4.32。G726(32Kbps ADPCM)和G729(8Kbps CS-ACELP)標準分別得分3.65和3.89。MELP聲碼器(2400bps聯邦標準)得分2.93。一種常規的2400bps聲碼器(使用一個14階全極點模型來模型化幅值,使用一個4分割VQ來量化所述14階全極點模型的模型參數(線性頻譜頻率))及其在2700bps上的20毫秒變化分別得分3.11和3.15。通過比較,使用子幀能量級別相關數據重構語音的本發明的一種實施例得分2.43,而不使用子幀能量級別相關數據的一種實施例得分2.26。
除了質量之外,還評估了可懂度。為了評估可懂度,執行一個(有限)診斷韻律測試(DRT)。在所述測試中由2個演講者(1男1女)和8個(未訓練的)聽眾口述標準的DRT測試詞。在一個隔音室內執行所述測試,並通過一個單聲道耳機重構語音抽樣。
發現20毫秒版的常規聲碼器(2700bps)的(平均)整體可懂度是88。通過比較,發現使用子幀能量級別的實施例得分是82.8。
由實例1和實例2得出的結果是重構語音具有合理的質量和相當的可懂度。
總而言之,根據本發明的系統、方法和設備與標準ASR和DSR相比提供了若干優點。與ASR不同,根據本發明的系統、方法和設備克服了傳輸語音所導致的失真級別。與DSR不同,根據本發明的系統、方法和設備使重構語音能夠被存儲和/或驗證。而且,通過將數據傳輸速率增加不超過大約10%至20%,根據本發明的系統、方法和設備使得能夠根據本發明的一種優選實施例獲得所述重構的語音。也就是說,通過利用已經被編碼為DSR處理一部分的數據,根據本發明的系統、方法和設備使必須傳輸以在後端上提供重構語音的附加數據最小化。
通過研讀說明書、附圖和權利要求書將獲得本發明的其它方面、目的和優點。
權利要求
1.在一種分布式語音識別系統中,所述系統包括第一通信設備,它接收一個語音輸入,編碼代表語音輸入的數據,並傳輸所述編碼數據;和第二遠程通信設備,它接收編碼數據,並比較所述編碼數據與一個已知的數據集,一種在第二通信設備上重構語音輸入的方法,包括步驟接收包括編碼頻譜數據和編碼能量數據的編碼數據;解碼所述編碼頻譜數據和編碼能量數據以確定所述頻譜數據和能量數據;和組合所述頻譜數據和能量數據以重構所述語音輸入。
2.根據權利要求1的重構語音輸入的方法,其中接收步驟包含接收包括編碼為一系列Mel-頻率倒譜係數的頻譜數據的編碼數據的步驟。
3.根據權利要求2的重構語音輸入的方法,其中所述語音輸入包括一個音調周期,且所述解碼步驟包括步驟確定對應於所述音調周期的諧波Mel-頻率;對在所述諧波Mel-頻率上的Mel-頻率倒譜係數執行一個反離散餘弦變換以確定在所述諧波Mel-頻率上的語音輸入的對數頻率倒譜幅值;和指數化所述對數頻率倒譜幅值以確定所述語音輸入的頻譜幅值。
4.根據權利要求3的重構語音輸入的方法,其中執行反離散餘弦變換的步驟包括步驟確定一個包括多個列矢量的矩陣,每個列矢量對應於多個Mel-頻率之一;從所述矩陣中選擇一個列矢量,它對應於多個Mel-頻率中在數值上最接近於諧波Mel-頻率之一的一個Mel-頻率;和形成在從所述系列的Mel-頻率倒譜係數形成的一個行矢量和所選擇的列矢量之間的一個內積。
5.根據權利要求2的重構語音輸入的方法,其中所述解碼步驟包括步驟確定對應於一組頻率的Mel-頻率;和對在所述Mel-頻率上的Mel-頻率倒譜係數執行一個反離散餘弦變換以確定在所述Mel-頻率上的語音輸入的對數頻率倒譜幅值。
6.根據權利要求1的重構語音輸入的方法,其中所述接收步驟包括接收編碼數據的步驟,所述編碼數據包括編碼的附加激勵數據;所述解碼步驟包括解碼編碼的附加激勵數據以確定所述附加激勵數據的步驟;和所述組合步驟包括組合所述頻譜、能量和激勵數據以重構語音輸入的步驟。
7.根據權利要求6的重構語音輸入的方法,其中所述解碼步驟包括解碼所述編碼的附加激勵數據以確定一個音調周期和一個話音類型的步驟。
8.在一種分布式語音識別系統中,所述系統包括第一通信設備,它接收一個語音輸入,編碼語音輸入的相關數據,並傳輸所述編碼數據;和第二遠程通信設備,它接收所述編碼數據,並比較所述編碼數據與一個已知的數據集,所述第二遠程通信設備包括一個包括一個程序的處理器,所述程序控制處理器以(i)接收包括編碼頻譜數據和編碼能量數據的編碼數據,所述頻譜數據被編碼為一系列的Mel-頻率倒譜係數;(ii)對在與所述語音輸入音調周期相對應的諧波Mel-頻率上的Mel-頻率倒譜係數執行一個反離散餘弦變換以確定在這些諧波頻率上的語音輸入的對數頻譜幅值;(iii)指數化所述對數頻譜幅值以確定所述語音輸入的頻譜幅值;和(iv)解碼所述編碼的能量數據以確定能量數據;和一個語音合成器,它組合所述頻譜幅值和能量數據以重構語音輸入。
9.根據權利要求8的通信設備,其中所述程序還控制處理器以(i)確定一個包括多個列矢量的矩陣,每個列矢量對用於多個Mel-頻率之一;(ii)從所述矩陣中選擇一個列矢量,它對應於多個Mel-頻率中在數值上最接近於諧波Mel-頻率之一的一個Mel-頻率;和(iii)形成在從所述系列的Mel-頻率倒譜係數形成的一個行矢量和所選擇的列矢量之間的一個內積以執行所述反離散餘弦變換。
全文摘要
在一種分布式語音識別系統(20)中,所述系統包括第一通信設備(22),它接收一個語音輸入(34),編碼代表語音輸入的數據(36,38),並傳輸編碼數據(42);和第二遠程通信設備(26),它接收編碼數據(44)並比較所述編碼數據與一個已知的數據集,所述設備(26)包括一個安裝有一程序的處理器(92),所述程序控制處理器(92)根據一種重構語音輸入的方法執行操作,所述方法包括接收包括編碼頻譜數據和編碼能量數據的編碼數據的步驟(44)。所述方法還包括解碼編碼頻譜數據和編碼能量數據以確定頻譜數據和能量數據的步驟(46,48)。所述方法還包括組合所述頻譜數據和能量數據以重構語音輸入的步驟(50,52)。
文檔編號G10L15/00GK1552059SQ02805996
公開日2004年12月1日 申請日期2002年1月18日 優先權日2001年2月2日
發明者威廉·M·庫什納, 傑弗裡·默尼耶, 馬克·A·雅修克, 坦卡西·V·拉馬巴德朗, V 拉馬巴德朗, 默尼耶, A 雅修克, 威廉 M 庫什納 申請人:摩託羅拉公司