為話音識別導出壓縮聲學模型的方法
2023-12-08 23:17:56 2
專利名稱:為話音識別導出壓縮聲學模型的方法
技術領域:
本發明涉及為話音識別導出壓縮聲學模型的方法。
背景技術:
話音識別(或者更常見的叫法是自動話音識別)有許多應用,例如自動語音響應、 語音撥號和數據輸入等等。話音識別系統的性能通常基於準確性和處理速度,並且挑戰在 於在不影響準確性或處理速度的情況下設計具有更低處理功率和更小存儲器大小的話音 識別系統。近年來,對於也需要某種形式的話音識別應用的更小且更緊湊的設備,這個挑戰 更大。 在Enrico Bocchieri禾口 Brian Kan-Wing Mak的論文"SubspaceDistribution Clustering Hidden Markov Model", IEEE transactions on Speechand Audio Processing, Vol. 9,No. 3,March 2001中,提出了一種方法,其減小聲學模型的參數空間,從 而帶來了存儲器和計算的節省。然而,所提出的方法仍然需要相對大量的存儲器。
本發明的一個目的是提供一種為話音識別導出壓縮聲學模型的方法,這種方法向 公眾提供了一種有用的選擇並且/或者減輕了現有技術的缺陷中的至少一個。
發明內容
本發明提供了一種為話音識別導出壓縮聲學模型的方法。該方法包括(i)將一 聲學模型變換到本徵空間(eigenspace)中,以獲得該聲學模型的本徵矢量及其本徵值; (ii)基於每個本徵矢量的每個維度的本徵值,來確定主導特性;以及(iii)基於主導特性 對維度進行選擇性編碼,以獲得壓縮聲學模型。 通過使用本徵值,這提供了用於確定聲學模型的每個維度的重要性的手段,而重 要性形成了選擇性編碼的基礎。這樣,與倒譜空間(c印stralspace)中相比,這創建了大小 大大降低的壓縮聲學模型。 對於編碼,優選標量量化,因為這種量化是"無損"的。 優選地,確定主導特性包括識別高於閾值的本徵值。與具有低於閾值的本徵值的
維度相比,與高於閾值的本徵值相對應的維度可用較高的量化大小來編碼。 有利地,在選擇性編碼之前,該方法包括對經變換的聲學模型進行規格化
(normalization)以將每個維度轉換成標準分布。選擇性編碼於是可包括基於統一量化碼
書來對每個經規格化的維度進行編碼。優選地,碼書具有一字節大小,但這並不是絕對必
要,而是可取決於應用。 如果使用一字節碼書,則優選地,具有高於重要性閾值的重要性特性的經規格化 的維度被用一字節碼字來編碼。另一方面,具有低於重要性閾值的重要性特性的經規格化 的維度被用小於1位元組的碼字來編碼。 本發明還提供了用於為話音識別導出壓縮聲學模型的裝置/系統。該裝置包括 用於將一聲學模型變換到本徵空間中以獲得該聲學模型的本徵矢量及其本徵值的裝置,用於基於每個本徵矢量的每個維度的本徵值來確定主導特性的裝置,以及用於基於主導特性 對維度進行選擇性編碼以獲得壓縮聲學模型的裝置。
現在將參考附圖以示例方式描述本發明的實施例,附圖中, 圖1是示出用於為話音識別導出本徵空間中的壓縮聲學模型的處理的總概況的 框圖; 圖2是更詳細示出圖1的處理並且還包括解碼和解壓縮步驟的框圖; 圖3是未壓縮聲學模型的線性變換的圖形表示; 包括圖4a至4c的圖4是示出在規格化後本徵矢量的維度的標準正態分布的曲線 圖; 圖5示出了有和沒有判別分析(discriminant analysis)的不同編碼技術;並且 圖6是示出不同的模型壓縮效率的表格。
具體實施例方式
圖1是示出本發明的用於導出壓縮聲學模型的優選處理的總概況的框圖。在步驟 10,原始的未壓縮聲學模型首先被轉化並被表示在倒譜空間中,並且在步驟20,倒譜聲學模 型被轉換到本徵空間中,以確定倒譜聲學模型的哪些參數是重要/有用的。在步驟30,聲學 模型的參數基於重要性/有用性特性被編碼,然後,經編碼的聲學特徵在步驟40和50中被 集合在一起,作為本徵空間中的壓縮模型。 現在將通過參考圖2來更詳細描述上述步驟中的每一個。 在步驟IIO,在倒譜空間中表示未壓縮的原始信號模型,例如話音輸入。取未壓縮 原始信號模型的採樣,以形成倒譜空間中的模型112。倒譜空間中的模型112形成後續數據 輸入的基準。然後在步驟120使倒譜聲學模型數據經歷判別分析。將線性判別分析(LDA) 矩陣用於未壓縮的原始信號模型(以及採樣)以將倒譜空間中的未壓縮原始信號模型(以 及採樣)變換成本徵空間中的數據。應當注意,未壓縮的原始信號模型是矢量,因此包括量 值和方向。 A.判別分析 通過線性判別分析,考察、評估並過濾就聲學分類而言最主導的信息。這是基於這
樣一個現實的在話音識別中,準確地處理所接收的話音是很重要的,但可能並不需要對話
音的所有特徵編碼,因為一些特徵可能是不必要的,而不會對識別的準確性有影響。 假定R〃是原始特徵空間,該空間是n維超空間。每個x G R〃具有在ASR系統中
有意義的類標籤。接下來,在步驟130,目標是通過轉換到本徵空間中,來找到優化變換空間
y G RP中的分類性能的線性變換(LDA矩陣)A,該變換空間是p維超空間(通常,p《n),
射 y = Ax 其中y是本徵空間中的矢量,x是倒譜空間中的數據。
在LDA(線性判別分析)理論中,可以根據下式來找到A
E—1 E BrO =①A
其中e和e Bc分別是類內(WC)和跨類(BC)協方差矩陣,A和①分別是M、c 的本徵值和本徵矢量的n n矩陣。 A是通過選擇與p個最大本徵值相對應的p個本徵矢量來構造的。當根據y和x 正確導出A時,則導出了優化聲學分類的LDA矩陣,該LDA矩陣幫助考察、評估和過濾未壓 縮的原始信號模型。 圖3圖示出了線性變換的最終結果,以揭示一有用維(Dim)和一個無用維(Dim) (其沒有有用信息)上的兩類數據。這些類數據例如可以是音素、雙音素、三音素等等。第 一橢圓114和第二橢圓116都表示由於高斯分布而得到的數據的區域。第一鐘形曲線115 是由於把點從第一橢圓114內投影到第一子軸118上而得到的。類似地,第二鐘形曲線117 是由於把點從第二橢圓116內投影到第一子軸118上而得到的。第一子軸118是利用對第 一橢圓114和第二橢圓116中示出的數據區域的LDA來導出的。與第一子軸118正交的第 二子軸119被插入在第一橢圓114與第二橢圓116之間的交點處。第二子軸119明顯地把 數據點分到不同類中,而第一橢圓114和第二橢圓116隻是不同類的近似區域。因此,根據 分開的數據區域的相對位置來確定未壓縮的原始信號模型中存在的類。這個技術主要可用 於分開兩類數據。每類數據也可被稱為聲學信號的一個特徵。 正如將會明白的,根據兩類的數據分布,通過LDA,可以確定按基於本徵值的主導 性或重要性的順序定義的相應本徵矢量的本徵值。換言之,對於LDA,較高的本徵值表示更 有判別性的信息,而較低的本徵值表示判別性較低的信息。 在聲學信號的每個特徵基於其在話音識別中的主導特性被分類之後,聲學數據在 140被規格化。 B.本徵空間中的規格化
本徵空間中的均值估計
1 r p = ^(y,) = ^Zy,
J (=i 本徵空間中的標準方差估計 e = E ((yt_E (yt)) (yt_E (yt))T) = E (ytytT) _E (yt) E (yt)T 1 r s 、Zy/y'-p、 規格化 夂=^T"S血g)' (y, — a0 其中yt 二本徵空間矢量,E(y》=yt的期望,e diag =方差的對角線上的元素的協 方差矩陣,T =時間。 話音特徵被假定為高斯分布,此規格化將每個維度轉換為標準正態分布N(i!, o),其中y =0並且o = 1(參見圖4a至4c)。
此規格化為模型壓縮提供了兩個優點 第一,由於所有維度共享相同的統計特性,因此對於每一個維度處的模型編 碼-解碼,可採用統一的奇異碼書(singular codebook)。不需要為不同的維度設計不同的 碼書,或者使用其他種矢量碼書。這可以節省用於模型存儲的存儲器空間。如果碼書的大 小被定義為28 = 256,則一個字節就足以表示一個碼字。
5
第二,由於碼書的動態範圍與浮點表示相比是有限的,因此模型編碼-解碼在浮 點數據落在碼書的範圍之外(例如溢出、截短和飽和)時會帶來嚴重的問題,這最終將導致 ASR性能劣化。利用這種規格化,可以有效地控制這種轉換損失。例如,如果定點範圍被設 定為±3o置信區間,則在編碼-解碼中導致飽和問題的數據百分比將為 formula see original document page 6 已經發現,這個微小的編碼_解碼誤差/損失在ASR性能中是觀測不到的。
C.基於判別能力的不同編碼_解碼精度 在模型被規格化後,其在150經歷基於1位元組的量化碼書大小的、對聲學模型的均 值矢量和協方差矩陣的判別或選擇性編碼。與較大本徵值相對應的本徵矢量上的LDA投影 被認為對於分類更重要。本徵值越大,其相應方向就ASR而言的重要性就越高。因此,最大 碼字大小被用於表示類。 分離"較大本徵值"和其他本徵值的閾值是通過交叉驗證實驗來確定的。首先,留 出訓練數據和訓練模型的一部分。然後,基於被留出的數據來評估ASR性能。對於不同的 閾值重複訓練和評估ASR性能的這個處理,直到找到提供最佳識別性能的閾值為止。
由於本徵空間中的維度對於語音分類具有不同的重要性特性,因此在不影響ASR 性能的情況下,使用具有不同精度的不同壓縮策略。另外,由於聲學模型的所有參數都是多 維矢量或矩陣,因此對每個模型參數的每一維實現標量編碼。這一點尤其有利,因為標量編 碼是"無損"的。在這個情況下,標量編碼與普遍存在的矢量量化(VQ)相比是"無損"的。 VQ是有損壓縮方法。要減小量化誤差則必須增大VQ碼書的大小。然而,較大的碼書導致較 大的壓縮模型大小和較慢的解碼處理。另外,難以用有限的訓練數據來可靠地"訓練"大VQ 碼書。這個困難之處將降低話音識別的準確性。應當注意,標量碼書的大小要小得多。這 相應地有助於提高解碼速度。與大VQ碼書相比,用有限地訓練數據也可以更可靠地估計小 標量碼書。利用小標量碼書還可幫助避免由量化誤差引起的額外準確性損失。因此,就具 有有限訓練數據的話音識別而言,標量量化勝過VQ。 選擇性編碼在圖5中示出,其中具有較高本徵值的維度被用最大限度的8比特(1 字節)來編碼,而具有較低本徵值的維度被利用較低的比特來編碼。通過該選擇性編碼,將 會明白,可以實現存儲器大小的減小。 在選擇性編碼之後,在160導出本徵空間中的壓縮模型。本徵空間中的壓縮模型 遠小於倒譜空間中的數據。 圖2還示出了解碼步驟170和180,其中,如有必要,壓縮模型被以判別方式解碼, 並且壓縮模型被解壓縮以獲得原始的未壓縮模型。 壓縮效率的示例在圖6中示出,圖6是示出與本發明提出的選擇性壓縮技術相比 的均等壓縮技術的壓縮比率的表格。可以看出,選擇性壓縮技術可實現更高的壓縮比率。
現在已經完整描述了本發明,本領域的普通技術人員應該清楚,在不脫離所要求 保護的範圍的情況下,可以對本發明做出許多修改。
權利要求
一種為話音識別導出壓縮聲學模型的方法,該方法包括(i)將一聲學模型變換到本徵空間中,以獲得該聲學模型的本徵矢量及其本徵值;(ii)基於每個本徵矢量的每個維度的本徵值,來確定主導特性;以及(iii)基於主導特性對維度進行選擇性編碼,以獲得壓縮聲學模型。
2. 根據權利要求1所述的方法,其中,對維度編碼包括在本徵空間中對維度的標量量化。
3. 根據權利要求1所述的方法,其中,確定主導特性包括識別高於閾值的本徵值。
4. 根據權利要求3所述的方法,其中,與具有低於閾值的本徵值的維度相比,與高於閾 值的本徵值相對應的維度被用較高的量化大小來編碼。
5. 根據權利要求l所述的方法,還包括在選擇性編碼之前,對經變換的聲學模型進行 規格化以將每個維度轉換成標準分布。
6. 根據權利要求5所述的方法,其中,選擇性編碼包括基於統一量化碼書來對每個經 規格化的維度進行編碼。
7. 根據權利要求5所述的方法,其中,碼書具有一字節大小。
8. 根據權利要求6所述的方法,其中,具有高於重要性閾值的重要性特性的經規格化的維度被用一字節碼字來編碼。
9. 根據權利要求6所述的方法,其中,具有低於重要性閾值的重要性特性的經規格化的維度被用小於1位元組的碼字來編碼。
全文摘要
這裡公開了一種為話音識別導出壓縮聲學模型的方法。在所描述的實施例中,該方法包括在步驟(20)將一聲學模型變換到本徵空間中,確定本徵空間的本徵矢量及其本徵值,並且在步驟(30)基於本徵空間的值對本徵矢量的維度進行選擇性編碼,以在步驟(40和50)獲得壓縮聲學模型。
文檔編號G10L15/00GK101785049SQ200880100568
公開日2010年7月21日 申請日期2008年6月16日 優先權日2007年7月26日
發明者張化雲, 許軍 申請人:創新科技有限公司