使用話帶信號的語音識別裝置和方法
2023-09-22 10:53:50
專利名稱:使用話帶信號的語音識別裝置和方法
技術領域:
本發明涉及使用一種話帶信號(voice band signal)的語音識別裝置和方 法,而且更具體地,涉及這樣的語音識別裝置及其方法其通過計算話帶信 號與包含噪聲的語音信號之間的頻譜差值、基於所述頻譜差值計算相鄰幀的 每個頻帶中的平均數、向所述平均數分派通過實驗得到的權重從而執行歸一 化(normalization)並產生歸一化值、藉助利用所述歸一化值補償所述話帶 信號來提取特徵向量、以及學習(learn)所述特徵向量的識別模型來識別語背景技術隨著有線/無需通信的發展,語音識別技術已經備受關注。語音識別技術 的優點在於,其能夠為用戶提供更方便的接口。為了在現實生活中利用語音識別技術,必須減少疊加在語音中的幹擾信 號的影響。幹擾信號是可能疊加在作為實際識別目標的語音中的每一種信號。幹擾 信號的示例包括由環境噪聲導致的失真、通信線路失真、回聲、背景音樂、 他人的語音等等。由環境噪聲導致的失真是顯著降低語音識別性能的因素。 因而,已經積極地開展關於補償由環境噪聲導致的失真的研究。作為一種用於補償由環境噪聲導致的失真的方法,韓國專利登記號No. 0446626公開了一種噪聲抑制方法。根據韓國專利登記號No. 0446626,依次 4吏用獨立分量分衝斤(Independent Component Analysis, ICA )和i普相減法來抑 制語音信號中的噪聲。作為另一種方法,韓國專利公布號No. 0442825公開了一種用於語音識 別的環境補償方法。根據韓國專利登記號No. 0442825,利用環境補償方法 來補償被噪聲或線路失真汙染的語音的頻譜,以獲得與實際語音頻譜接近的 頻譜。然而,因為使用ICA來控制噪聲信號,所以韓國專利公布號No. 0446626需要大量的計算,而且在噪聲的類型與語音類似時難以分離信號。韓國專利登記號No. 0442825使用平均補償方法,其沒有通過估計代表 噪聲或線路失真的環境參數來對任意環境進行優化。因而,對具體環境的適 應性較差。此外,韓國專利登記號No. 0442825在利用相對於被汙染的語音信號的 環境參數來補償失真語音信號的過程中需要大量的計算。因而,難以在資源 有限的實時小型設備(例如,小型移動終端)中操作。
發明內容
技術問題因而,本發明的目的是提供一種這樣的語音識別裝置及其方法其通過 計算話帶信號與包含噪聲的語音信號之間的頻譜差值、基於所述頻語差值計 算相鄰幀的每個頻帶中的平均數、向所述平均數分派通過實驗得到的權重從 而執行歸 一化並產生歸 一化值、藉助利用所述歸 一化值補償所述話帶信號來 提取特徵向量、以及學習所述特徵向量的識別模型來識別語音。技術方案根據本發明的一個方面,提供一種語音識別裝置,包括信號處理單元, 用於計算話帶信號的對數頻譜和包含噪聲的語音信號的對數頻譜,所述話帶 信號和所述語音信號接收自外部信道;權重計算單元,用於通過利用所述話 帶信號的對數頻譜和所述語音信號的對數頻譜分派權重來計算歸一化值,並 利用所述歸一化值補償所述話帶信號的對數頻譜;特徵提取單元,用於從所 述話帶信號的經補償的對數頻譜中提取特徵向量;以及識別單元,用於利用 所述特徵向量學習識別模型並執行語音識別。根據本發明的另一個方面,提供一種語音識別方法,包括步驟a)計 算話帶信號的對數頻譜和包含噪聲的語音信號的對數頻譜,所述話帶信號和 所述語音信號接收自外部信道;b)通過利用所述話帶信號的對數頻鐠和所 述語音信號的對數頻語分派權重來計算歸一化值,並利用所述歸一化值補償 所述話帶信號的對數頻譜;c)從所述話帶信號的經補償的對數頻譜中提取 特徵向量;以及d)利用所述特徵向量學習識別模型並執行語音識別。有益效果根據本發明的語音識別裝置和方法通過利用話帶信號,即便在嚴重的噪 聲環境中也能夠正確地識別用戶的命令。此外,由於抑制環境噪聲僅需要少量的計算,因此本發明可以應用於適合於例如個人數字助理(PDA )的使用有限資源的小型行動裝置的識別裝置。 更進一步,本發明可以提供便於不能自由運用他們的雙手的傷殘人士的 可替代接口。
通過下面參照附圖對優選實施例的描述,本發明的以上和其它目的和特 徵將變得顯而易見,其中圖1是根據本發明的實施例的使用話帶信號的語音識別裝置的框圖;圖2是示出圖1的權重計算單元的操作的流程圖;以及圖3是示出根據本發明的實施例的使用話帶信號的語音識別方法的流程圖。
具體實施方式
通過下面參照附圖對實施例的描述,本發明的其它目的和特徵將變得顯 而易見。圖1是根據本發明的實施例的使用話帶信號的語音識別裝置的框圖。參照圖1,所述語音識別裝置包括信號處理單元10、權重計算單元20、 特徵提取單元30、以及識別單元40。信號處理單元IO接收來自每個信道的話帶信號和包含噪聲的語音信號, 並計算所接收信號的對數頻譜(log Spectmm )。也即,信號處理單元10以預 定時間間隔對每個幀執行快速傅立葉變換(FFT)以將所接收的信號轉換為 頻域信號,並利用濾波器組計算話帶信號的對數頻譜和語音信號的對數頻 譜。由於信號處理單元10中計算話帶信號的對數頻譜和語音信號的對數頻 譜的過程是公知的,將略去其詳細描述。信號處理單元10向權重計算單元20提供話帶信號的對數頻譜和語音信 號的對數頻譜。權重計算單元20從信號處理單元10接收話帶信號的對數頻譜和語音信號的對數頻譜,並計算用於加強話帶信號的對數頻譜的歸一化值。權重計算單元20補償具有比語音信號低的精確度(definition)的話帶 信號。也即,權重計算單元20補償其精確度比語音信號低的話帶信號,因 為即便沒有因為環境噪聲而造成失真,但是在話帶信號通過語音頻帶之後回 聲也未被反射。此外,權重計算單元20將計算得到的權重應用於話帶信號的對數頻譜, 並向特徵提取單元30提供經補償的對數頻譜。特徵提取單元30提取語音識別裝置的學習所必需的特徵向量。特徵提 取單元30可以使用美爾頻率倒譜係數(Mel-Frequency Cepstrum Coefficient, MFCC)、線性預測倒譜係數(LPCC)、感知線性預測倒譜係數(PLPCC) 等等來提取語音的特徵。識別單元40利用所提取的特徵向量來學習識別模型。識別模型的示例 包括隱馬爾科夫模型(HMM)、動態時間規整(DTW)、以及神經網絡。識別單元40存儲已經經歷利用識別模型的學習過程的特徵向量作為模 型參數。識別單元40利用模型參數測量與之前學習的模型的相似度,並執 行所接收信號的語音識別。圖2是示出圖1的權重計算單元20的操作的流程圖。參照圖2,在步驟S21中權重計算單元20從信號處理單元IO接收話帶信號的對數頻譜(X)和語音信號的對數頻譜(Y),並計算頻譜差值(Z)。頻譜差值(Z)是話帶信號的對數頻譜(X)與語音信號的對數頻譜(Y)之間的幅度差值,而且表示為公式l。Z = X-Y 公式1在步驟S22中,權重計算單元20緩沖頻譜差值以臨時存儲該頻譜差值, 並計算N個相鄰幀(例如,N=3-5)的每個頻帶中的局部移動平均數。利用 公式2來計算局部移動平均數"。"4lX' 公式2其中b代表頻帶索引,t代表作為幀索引的時間,而N代表用於計算局部移 動平均數的緩衝幀的數量。利用局部運動平均數,權重計算單元20避免話帶信號的對數頻譜突然 改變。在步驟S23中,權重計算單元20通過向局部移動平均數(D:)分派權重來計算歸一化值。所述權重是與信噪比(SNR)成比例的值。通過實驗得到與SNR成比例的權重。優選的是,所述權重小於0.1 (10%),以避免從信號處理單元IO提供的原始話帶信號的對數頻譜的嚴重 失真。權重計算單元20利用公式3來計算歸一化值之。 元=^幾 公式3其中b代表頻帶索引,Db代表頻帶b處的局部移動平均數,而Wb代表頻帶b處的權重。權重計算單元20向特徵提取單元30提供補償頻譜。所述補償頻譜是其 中利用歸一化值補償了從信號處理單元10提供的原始話帶信號的對數頻譜 的頻鐠。圖3是示出根據本發明的實施例的使用話帶信號的語音識別方法的流程圖。參照圖3,語音識別裝置如下使用話帶信號來補償由環境噪聲導致的失真。在步驟S100中,語音識別裝置接收來自外部信道的話帶信號和語音信 號,並計算話帶信號的對數頻譜和語音信號的對數頻譜。在步驟S101中,語音識別裝置計算話帶信號的對數頻譜與語音信號的對數頻譜之間的頻譜差值。語音識別裝置緩衝計算得到的頻譜差值。在步驟S102中,語音識別裝置存儲所緩沖的頻鐠差值,並計算N個相鄰幀的每個 頻帶中的局部移動平均數。在步驟S103中,語音識別裝置通過根據SNR向局部移動平均數分派權 重來計算歸一化值。在步驟S104中,語音識別裝置通過利用歸一化值補償計算得到的原始話帶信號的對數頻譜來產生補償頻譜。在步驟S105中,語音識別裝置從補償頻i普中提取特徵向量。在步驟S106 中,語音識別裝置利用所提取的特徵向量學習識別模型,並執行語音識別。可以將根據本發明的實施例的方法實現為程序並存儲在能夠執行該程 序的計算機可讀記錄介質中。計算機可讀記錄介質的示例包括CD-ROM、 RAM、 ROM、軟盤、硬碟、磁光碟等等。雖然已經參照某些優選實施例描述了本發明,但是本領域技術人員應當 理解,可以作出各種變更和修改而不背離由所附權利要求書限定的本發明的範圍。對相關申請的交叉引用本申請包含與分別於2005年12月8日和2006年6月2日向韓國知識 產權局提交的韓國專利申請No. 2005-119803和2006-50045有關的主題,其 全部內容通過參照而被合併於此。
權利要求
1.一種語音識別裝置,包括信號處理單元,用於計算話帶信號的對數頻譜和包含噪聲的語音信號的對數頻譜,所述話帶信號和所述語音信號接收自外部信道;權重計算單元,用於通過利用所述話帶信號的對數頻譜和所述語音信號的對數頻譜分派權重來計算歸一化值,並利用所述歸一化值補償所述話帶信號的對數頻譜;特徵提取單元,用於從所述話帶信號的經補償的對數頻譜中提取特徵向量;以及識別單元,用於利用所述特徵向量學習識別模型,並執行語音識別。
2. 如權利要求1所述的語音識別裝置,其中,所述信號處理單元對所 述話帶信號和所述語音信號執行快速傅立葉變換FFT,並通過利用濾波器組 來計算所述話帶信號的對數頻譜和所述語音信號的對數頻譜。
3. 如權利要求1所述的語音識別裝置,其中,所述權重計算單元計算 所述話帶信號的對數頻譜與所述語音信號的對數頻譜之間的差值,緩沖計算 得到的差值,計算N個相鄰幀的每個頻帶中的局部移動平均數,其中N為 正整數,通過根據信噪比SNR向所述局部移動平均數分派權重來計算歸一 化值,並利用所述歸一化值補償所述話帶信號的對數頻譜。
4. 如權利要求3所述的語音識別裝置,其中,所述權重計算單元向所 述局部移動平均數分派小於10%的權重。
5. —種語音識別方法,包括步驟a) 計算話帶信號的對數頻譜和包含噪聲的語音信號的對數頻譜,所述 話帶信號和所述語音信號接收自外部信道;b) 通過利用所述話帶信號的對數頻譜和所述語音信號的對數頻譜分派 權重來計算歸一化值,並利用所述歸一化值補償所述話帶信號的對數頻譜;c) 從所述話帶信號的經補償的對數頻譜中提取特徵向量;以及d) 利用所述特徵向量學習識別模型,並執行語音識別。
6. 如權利要求5所述的語音識別方法,其中,所述步驟a)包括步驟 對所述話帶信號和所述語音信號執行快速傅立葉變換FFT;以及 通過利用濾波器組來計算所述話帶信號的對數頻譜和所述語音信號的對數頻鐠。
7. 如權利要求5所述的語音識別方法,其中,所述步驟b)包括步驟 計算所述話帶信號的對數頻i普與所述語音信號的對數頻譜之間的差值; 緩衝計算得到的差值;計算N個相鄰幀的每個頻帶中的局部移動平均數,其中N為正整數; 通過根據信噪比SNR向所述局部移動平均數分派權重來計算所述歸一 化值;以及利用所述歸一化值補償所述話帶信號的對數頻譜。
8. 如權利要求7所述的語音識別方法,其中,在步驟b)中向所述局部 移動平均數分派小於10%的權重。
全文摘要
提供一種語音識別裝置和方法。所述語音識別裝置包括信號處理單元,用於計算話帶信號的對數頻譜和包含噪聲的語音信號的對數頻譜,所述話帶信號和所述語音信號接收自外部信道;權重計算單元,用於通過利用所述話帶信號的對數頻譜和所述語音信號的對數頻譜分派權重來計算歸一化值,並利用所述歸一化值補償所述話帶信號的對數頻譜;特徵提取單元,用於從所述話帶信號的經補償的對數頻譜中提取特徵向量;以及識別單元,用於利用所述特徵向量學習識別模型並執行語音識別。
文檔編號G10L15/20GK101223574SQ200680025607
公開日2008年7月16日 申請日期2006年12月1日 優先權日2005年12月8日
發明者曹灌鉉, 樸俊錫, 鄭泳圭, 韓汶星 申請人:韓國電子通信研究院