用於與說話者無關的話音識別系統的構造話音模板的方法和設備的製作方法

2023-09-22 02:13:10 6

專利名稱：用於與說話者無關的話音識別系統的構造話音模板的方法和設備的製作方法
背景技術：
一、發明領域本發明一般涉及通信領域，尤其涉及用於與說話者無關的話音識別系統的話音模板。
二、背景話音識別(VR)是使機器具有模擬智能以識別用戶或用戶話音命令並便於人類與機器接口的最重要的技術之一。VR還是用於人類語音理解的關鍵技術。使用從聲音語音信號中恢復語言消息的技術的系統被稱為話音識別器。這裡使用的術語「話音識別器」一般指任何口頭用戶接口使能設備。話音識別器一般包括聲處理器和單詞解碼器。聲處理器析取一序列信息承載特徵或矢量，它們對於實現進入的原始語音的VR是必要的。單詞解碼器解碼特徵序列或矢量，以產生諸如對應於輸入話語的一序列語言文字之類的有意思的和所希望的輸出格式。
聲處理器是話音識別器中的前端語音分析子系統。響應於輸入語音信號，聲處理器提供適當的表示，以表徵時變語音信號。聲處理器應刪除諸如背景噪聲、信道失真、說話者特性以及說話方式之類的無關信息。有效的聲處理向話音識別器提供增強的聲識別能力。為此，要分析的有用的特徵是短時譜包絡。通常用於表徵短時譜包絡的兩種譜分析技術是線性預測編碼(LPC)和基於濾波器組的譜建模。在美國專利號5,414,796中(該專利轉讓給本發明的受讓人，並通過引用而充分結合於此)以及同樣通過引用而充分結合於此的L.B.Rabiner和R.W.Schafer的「Digital processing of Speech Signals」(第396頁至第453頁)(1978年)中描述了示例性LPC技術。
出於安全原因，對於VR(通常也稱為話音識別)的使用正變得日益重要。例如，VR可用於替代在無線電話機鍵盤上按壓按鈕的手動作業。當用戶在駕駛小汽車的同時始發一電話呼叫時，這是尤其重要的。當使用一不帶有VR的電話機時，駕駛員必須從方向盤移開一隻手，並在按壓按鈕以撥打呼叫的同時看電話機鍵盤。這些行為增加了小汽車事故的可能性。語音使能的電話機(即為語音識別而設計的電話機)將允許駕駛員在發出電話呼叫的同時繼續觀察道路。並且一種免提小汽車套件系統將額外地允許駕駛員能夠在呼叫始發期間將雙手保持在方向盤上。
語音識別設備被分類成與說話者有關的或與說話者無關的設備。把與說話者有關的設備(這是較普通的)訓練成識別某些特定用戶的命令。相反，與說話者無關的設備能夠接受任何用戶的話音命令。為了增加給定的VR系統的性能，不管是與說話者有關還是與說話者無關，都要求訓練以使系統配備有效的參數。換句話說，在最優地起作用之前，系統需要學習。
與說話者有關的VR設備一般工作於兩個階段中，一訓練階段和一識別階段。在訓練階段中，VR系統提示用戶一次或兩次地(一般兩次)說出系統詞彙表中的各個單詞，使得系統能夠從這些特定單詞或短語中獲悉用戶的語音的特徵。一示例性的免提小汽車套件的單詞表可包括鍵盤上的數字；關鍵詞「呼叫」、「發送」、「撥打」、「取消」、「清除」、「添加」、「刪除」、「歷史」、「程序」、「是」以及「否」；以及預定數量的通常稱為同事、朋友或家人的名字。一旦完成了訓練，用戶就能夠通過說受訓的關鍵詞來在識別階段中始發呼叫，VR設備通過把口頭話語與先前訓練的話語(存儲為模板)相比較並採用最佳的匹配來識別所述關鍵詞。例如，如果姓名「約翰」是受訓姓名之一，則用戶可通過說出短語「呼叫約翰」來始發對約翰的呼叫。VR系統將識別單詞「呼叫」和「約翰」，並將撥打用戶早已輸入作為約翰的電話號碼的號碼。
與說話者無關的VR設備也使用訓練模板，它包括預定大小的預先記錄的單詞表(如某些控制詞、數0至9以及是和否)。必須對大量用戶(如100個)說出該單詞表中的各個單詞進行記錄。
通常，通過將包含由第1組說話者(如100個說話者)說的單詞的測試資料庫與包含由第2組說話者(與第1組一樣多)說的相同的單詞的訓練資料庫相比較，來構造與說話者無關的VR模板。一般把由一個用戶說出的一個單詞稱為一個話語。在對與測試資料庫的話語的收斂進行測試之前，首先把訓練資料庫的各話語時間歸一化並然後量化(一般根據已知技術量化的矢量)。然而，時間歸一化技術依賴於僅從具有與先前幀最大差異的個別幀(話語的周期性片段)中獲得的信息。提供一種用於建立與說話者無關的VR模板的方法，所述VR模板使用一給定話語中的更多的信息，這將是有利的。還將進一步希望增加常規技術的精確性或收斂，用於根據話語的類型建立與說話者無關的VR模板。從而，存在對於一種構造與說話者無關的語音識別模板的方法的需要，該方法提供增強的精確性並使用話語中的更多量的信息。
發明概述本發明針對一種構造與說話者無關的語音識別模板的方法，該方法提供增強的精確性並使用話語中的更多量的信息。因此，在本發明的一個方面中，提供了一種建立語音模板，以用於與說話者無關的語音識別系統的方法。該方法有利地包括對第1組多個話語的各話語進行分段，以對各話語生成多個時間群集段，各時間群集段由一譜均值表示；對所有的所述第1組多個話語的多個譜均值進行量化，以生成多個模板矢量；把所述多個模板矢量的每一個與第2組多個話語相比較，以產生至少一個比較結果；如果所述至少一個比較結果超過至少一個預定閾值，則將所述第1組多個話語與所述多個模板矢量相匹配，以產生最優匹配路徑結果；根據所述最優匹配路徑結果，在時間上劃分所述第1組多個話語；以及重複所述量化、比較、匹配和劃分，直到至少一個比較結果不超過任一至少一個預定閾值為止。
附圖簡述

圖1是用於構造和實現與說話者無關的話音識別的話音模板的系統框圖。
圖2是可用於圖1的系統中的話音識別子系統的框圖。
圖3是說明由諸如圖2的子系統之類的話音識別子系統執行的用於識別輸入語音採樣的方法步驟的流程圖。
圖4是可用於圖1的系統中的模板構建子系統的框圖。
圖5是可用於圖1的系統中的模板構建子系統的框圖。
圖6是說明由諸如圖4的子系統或圖5的子系統之類的模板構建子系統執行的用於構造話音模板的方法步驟的流程圖。
較佳實施例的詳細描述根據一個實施例，如圖1所示，用於構造和實現與說話者無關的話音識別的話音模板的系統10包括與說話者無關的模板構建子系統12以及語音識別子系統14。與說話者無關的模板構建子系統12耦合至語音識別子系統14。
如下參考圖4-6所述，使用與說話者無關的模板構建子系統12構造與說話者無關的話音模板。把模板提供給語音識別子系統14，用於如下參考圖2-3所述的那樣識別來自用戶的輸入語音。
根據一個實施例，如圖2所示，語音識別子系統100包括模數轉換器(A/D)102、前端聲處理器104、特徵提取器106、語音模板資料庫108、模型比較邏輯110以及判決邏輯112。在某一實施例中，聲處理器104和特徵提取器106由一個設備實現，如參數提取器。在一個實施例中，聲處理器104包括頻率分析模塊114。在一個實施例中，特徵提取器106包括端點檢測器116、時間群集語音分段模塊118以及語音電平規範器。
A/D102耦合至聲處理器104。聲處理器104耦合至特徵提取器106。在一個實施例中，在特徵提取器106之內，端點檢測器116耦合至時間群集語音分段模塊118，後者耦合至幅度量化器120。特徵提取器106耦合至模型比較邏輯110。模型比較邏輯110耦合至模板資料庫108和判決邏輯112。
語音識別子系統100可駐留於例如無線電話機或免提小汽車套件之中。用戶(未示出)說出一個單詞或短語，生成一語音信號。用常規變換器(未示出)把該語音信號轉換成電語音信號s(t)。把該語音信號s(t)提供至A/D102，後者按照已知的採樣方法將該語音信號轉換成數位化的語音信號s(n)，所述已知採樣方法諸如脈衝編碼調製(PCM)、A律或μ律。
把語音採樣s(n)提供給聲處理器104，用於參數確定。聲處理器104產生一組參數，該組參數對所述輸入語音信號s(t)的特徵進行建模。可按照若干已知語音參數確定技術中的任一種來確定參數，所述已知語音參數確定技術例如上述美國專利號5,414,796以及Lawrence Rabiner和Biing-HwangJuang的「Fundamentals of Speech Recognition」(1993)中所述的語音編碼器編碼、基於離散傅立葉變換(DFT)的倒譜係數(如基於快速傅立葉變換(FFT)的倒譜係數)、線性預測係數(LPC)或Bark比例分析。參數組最好是基於幀的(分段成周期性的幀)。可把聲處理器104實現為數位訊號處理(DSP)。DSP可包括語音編碼器。作為替代，可把聲處理器104實現為語音編碼器。
把參數的各個幀提供給特徵提取器106。在特徵提取器106中，端點檢測器116使用提取的參數來檢測話語(即一個單詞)的端點。在一個實施例中，有利地按照轉讓給本發明的受讓人並通過引用而充分結合於此的1999年2月8日提交的題為「METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECHIN THE PRESENCE OF NOISE」的美國專利申請序列號09/246,414中描述的技術來進行所述端點檢測。按照該技術，把所述話語與諸如信噪比(SNR)閾值之類的第1閾值相比較，以確定該話語的第1起始點和第1結束點。然後把在所述第1起始點之前的話語部分與第2SNR閾值相比較，以確定該話語的第2起始點。然後把在所述第1結束點之後的話語部分與第2SNR閾值相比較，以確定該話語的第2結束點。最好周期性地重新計算所述第1和第2SNR閾值，並且第1SNR閾值最好超過第2SNR閾值。
把所檢測的話語的頻域參數幀提供給時間群集語音分段模塊118，根據一個實施例，後者實現了轉讓給本發明的受讓人並通過引用而充分結合於此1999年1月4日提交的題為「SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITIONOF SPEECH SIGNALS」的美國申請序列號09/225,891中描述的一種壓縮技術。按照該技術，頻域參數中的各個語音幀由與該語音幀相關聯的至少一個譜值表示。然後對各對相鄰的幀確定譜差值。譜差值表示與一對中的兩個幀相關聯的譜值之間的差。在各對相鄰幀之間設置初始群集邊界，在參數中建立群集，並向各群集分配一方差值。該方差值最好等於所確定的譜差值之一。然後計算多個群集合併參數，各群集合併參數與一對相鄰群集相關聯。從所述多個群集合併參數中選擇最小的群集合併參數。然後通過取消與所述最小群集合併參數相關聯的群集之間的邊界，來形成合併的群集，並向合併的群集分配一合併的方差值。所述合併的方差值表示分配給與最小群集合併參數相關聯的方差值。最好重複該過程，以便形成多個合併的群集，並且最好根據多個合併的群集形成分段的語音信號。
本領域的技術人員將理解到可用諸如時間歸一化模塊之類的其它設備來代替時間群集分段模塊118。然而，將本領域的技術人員也將理解，由於時間群集語音分段模塊118把與前一幀相比具有最小差值的幀合併成群集，並使用中平均來代替個別幀，時間群集語音分段模塊118使用經處理的話語中的更多的信息。還將理解，時間群集語音分段模塊118最好連同模型比較邏輯110一起使用，後者採用本領域中已知的以及下述的動態時間翹曲(DTW)模型。
把群集均值提供到語音電平規範器120。在一個實施例中，語音電平規範器120通過向各群集均值分配每信道兩比特(即每頻率兩比特)來量化語音幅度。在提取倒譜係數的另一實施例中，如技術人員所理解的那樣，不使用語音電平規範器120來量化群集均值。特徵提取器106把由語音電平規範器120生成的輸出提供給模型比較邏輯110。
語音識別子系統100的所有詞彙表單詞的一組模板永久地存儲於模板資料庫108之中。該組模板最好是一組與說話者無關的模板，由下述的與說話者無關的模板構建子系統構造。最好把模板資料庫108實現為任何常規形式的非易失性存儲媒體，如快閃記憶體存儲器。這允許當關斷對語音識別子系統100的供電時使模板保留於模板資料庫108中。
模型比較邏輯110把來自特徵提取器106的矢量與存儲於模板資料庫108中的所有模板相比較。所述矢量與存儲於模板資料庫108之中的所有模板之間的比較結果或間距提供給判決邏輯112。判決邏輯112從模板資料庫112中選擇最接近地匹配所述矢量的模板。作為替代，判決邏輯112可使用常規「N最佳」選擇算法，該算法在預定匹配閾值之內選擇N個最接近的匹配。然後，向用戶詢問關於哪個選擇是所想要的。判決邏輯112的輸出是關於說出了詞彙表中的哪個單詞的判決。
在一個實施例中，模型比較邏輯110和判決邏輯112使用DTW技術進行收斂測試。DTW技術是已知的，並且描述於通過引用而充分結合於此的LawrenceRabiner和Biing-Hwang Juang的「Fundamentals of Speech Recognition」(1993)的第200至238頁中。按照DTW技術，通過標繪要對存儲於模板資料庫108中的各話語的時間序列測試的話語的時間序列來形成格子結構。然後把正被測試的話語與模板資料庫108中的各話語逐點比較(如每10ms)，一次一個話語。對於模板資料庫108中的各話語，在時間上調節或「翹曲」正被測試的話語，在某些點壓縮或擴展，直到達到與模板資料庫108中的話語最接近的匹配為止。在時間上的每一點上，比較兩個話語，並且在該點聲明匹配(零代價)或聲明不匹配。在某一點處不匹配的情況中，壓縮、擴展或如有必要則失配正被測試的話語。繼續該過程，直到兩個話語彼此已完全比較完為止。大量的(一般幾千個)經不同調節的話語是可能的。選擇具有最低代價函數(即要求最少數量的壓縮和/或擴展和/或失配)的經調節的話語。以類似於Viterbi解碼算法類似的方式，有利地通過從模板資料庫108中的話語中的各個點向後看，以確定具有最低總代價的路徑來進行所述選擇。這允許確定最低代價的(即最接近匹配的)經調節的話語，而不用藉助產生每一個可能的經不同調節的話語的「強制力」方法。然後比較模板資料庫108中的所有話語的最低代價的經調節的話語，並且選擇具有最低代價的一個作為與所測試的話語最接近匹配的所存儲的話語。
有利地把模型比較邏輯110和判決邏輯112實現為微處理器。語音識別子系統100可以是例如ASIC。語音識別子系統100的識別精確度是關於語音識別子系統100能有多好地正確識別說出詞彙表中的單詞或短語的一個量度。例如，95％的識別精確度指示出語音識別子系統100在100次當中能95次正確識別單詞表中的單詞。
根據一個實施例，語音識別子系統(未示出)執行如圖3的流程圖中所示的算法步驟，來識別輸入到語音識別子系統的語音。在步驟200中，把輸入語音提供給語音識別子系統。控制流然後進行到步驟202。在步驟202中，檢測話語的端點。在某一特定實施例中，如上述參考圖2所述的那樣，按照美國申請序列號09/246,414中描述的技術來檢測話語的端點。然後控制流進行到步驟204。
在步驟204中，在經提取的話語上進行時間群集語音分段。在某一特定實施例中，如上述參考圖2所述的那樣，所使用的時間群集語音分段技術是描述於上述美國申請序列號09/225,891中的技術。然後控制流進行到步驟208。在步驟206中，提供與說話者無關的模板，用於與步驟204中生成的語音群集均值相匹配。最好按照下述參考圖4-6所述的技術來構造所述與說話者無關的模板。然後控制流進行到步驟208。在步驟208中，在某一話語的群集與所有與說話者無關的模板之間進行DTW匹配，並選擇最接近匹配的模板作為識別出的話語。在某一實施例中，按照上述參考圖2的Lawrence Rabiner和Biing-Hwang Juang的「Fundamentals of Speech Recognition」(1993)中第200-238頁中描述的技術來執行所述DTW匹配。本領域的技術人員將理解可在步驟204中執行除了時間群集語音分段之外的技術。這樣的技術包括例如時間歸一化。
按照一個實施例，如圖4所示，與說話者無關的模板構建子系統300包括處理器302和存儲媒體304。處理器100最好是微處理器，但可以是任何常規形式的處理器、專用處理器、數位訊號處理器(DSP)、控制器或狀態機。處理器302耦合至存儲媒體304，有利地把後者實現為快閃記憶體存儲器、EEPROM存儲器、RAM存儲器、配置成保持固件指令的ROM存儲器、要運行於處理器302之上的軟體模塊或任何其它常規形式的存儲器。最好把與說話者無關的模板構建子系統實現為運行於UNIX系統作業系統之上的計算機。在另一些實施例中，存儲媒體304可以是板載RAM存儲器，或者處理器302和存儲媒體304可駐留於ASIC中。在一個實施例中，處理器302配置成執行由存儲媒體304包含的一組指令，以執行如下參考圖6所述的步驟之類的算法步驟。
根據另一實施例，如圖5所示，與說話者無關的模板構建子系統400包括端點檢測器402、時間群集語音分段邏輯404、矢量量化器406、收斂測試器408以及K均值語音分段邏輯410。最好採用控制處理器(未示出)來控制與說話者無關的模板構建子系統進行的迭代的次數。
端點檢測器402耦合至時間群集語音分段邏輯404。時間群集語音分段邏輯404耦合至矢量量化器406。矢量量化器406耦合至收斂測試器408以及K均值語音分段邏輯410。控制處理器最好通過控制總線(未示出)耦合至端點檢測器402、時間群集語音分段邏輯404、矢量量化器406、收斂測試器408以及K均值語音分段邏輯410。
要被訓練的話語的訓練採樣Sx(n)以幀的形式提供給端點檢測402。訓練採樣最好從訓練資料庫(未示出)中提供，在後者中存儲要被訓練的話語。在一個實施例中，訓練資料庫包括100個單詞，各個單詞由100個不同的說話者說出，總共有10000條存儲的話語。端點檢測器402檢測話語的起始點和結束點。在一個實施例中，端點檢測器402按照上述美國申請序列號09/246,414以及上述參考圖2所述的技術來操作。
端點檢測器402向時間群集語音分段；邏輯404提供經檢測的話語。時間群集語音分段邏輯404對經檢測的話語執行壓縮算法。在一個實施例中，時間群集語音分段邏輯404按照上述美國申請序列號09/225,891以及上述參考圖2所述的技術來操作。在一個實施例中，時間群集語音分段邏輯404把經檢測的話語壓縮成20個分段，各段包括一群集均值。
時間群集語音分段邏輯404把一給定單詞的所有訓練話語的群集均值提供給矢量量化器406。矢量量化器406對話語(即所有說話者的相同的單詞)的群集均值進行矢量量化，並把所產生的矢量作為話語的可能的與說話者無關的(SI)模板提供給收斂測試器408。矢量量化器406最好按照各種已知的矢量量化(VQ)技術中的任一種來進行操作。在例如A.Gersho和R.M.Gray的「Vector Quantization and Signal Compression」(1992)中描述了各種VQ技術。在某一特定實施例中，矢量量化器406產生4群集矢量。從而，例如逐次把各分段提供給矢量量化器406，後者把各分段表示為4個群集。各群集表示某一單詞的每一個說話者，從而每個單詞有多個群集。根據一個實施例，每個模板有80個矢量(4個群集乘以20個分段)。
收斂測試器408把可能的SI模板與要被測試的話語的測試採樣Sy(n)相比較。測試採樣以幀的形式提供給收斂測試器408。測試採樣最好從測試資料庫(未示出)中提供，後者中存儲要被測試的話語。在一個實施例中，測試資料庫包括100個單詞，各個單詞由100個不同的說話者說出，總共有10000條存儲的話語。所述單詞最好是包含於所述訓練資料庫中的相同的單詞，但由100個不同的說話者說出。收斂測試器408把被訓練的話語的可能的SI模板與被測試的話語的採樣相比較。在一個實施例中，收斂測試器408配置成採用DTW算法來進行收斂測試。所採用的DTW算法最好是Lawrence Rabiner和Biing-Hwang Juang的「Fundamentals of Speech Recognition」(1993)中的第200至238頁中以及上述參考圖2描述的技術。
在一個實施例中，收斂測試器408配置成分析資料庫中的所有單詞的結果的精確度以及資料庫與可能的SI模板的方差。首先檢查所述方差，如果該方差落於一預定閾值之下，那麼檢查精確度。最好每段計算方差，並然後相加以產生總體方差值。在某一特定實施例中，通過對4個群集的最佳匹配計算均方誤差來獲得所述方差。所述均方誤差技術在本領域中是眾所周知的。如果來自測試資料庫的話語與由訓練資料庫產生的可能的SI模板相匹配(即，如果對於資料庫中所有的單詞來說，識別是正確的)，則把收斂測試定義為是精確的。
還從矢量量化器406把可能的SI模板提供給K均值語音分段邏輯410。K均值語音分段邏輯410也接收訓練採樣，所述訓練採樣最好劃分成幀。在收斂測試器408執行了對收斂的第1測試之後，方差或精確度的結果可能落於方差和精確度的預定閾值之下。在一個實施例中，如果方差或精確度的結果落於方差和精確度的預定閾值之下，則執行另一次迭代。因此，控制處理器指示K均值語音分段邏輯410對訓練採樣執行K均值分段，從而產生如下所述的分段的語音幀。按照K均值語音分段，最好利用DTW技術，使訓練採樣與可能的SI模板相匹配，從而產生如參考圖2所述的最優路徑。然後按照該最優路徑對訓練採樣進行分段。例如，訓練採樣的最初5個幀可與可能的SI模板的第1幀相匹配，訓練採樣的接著的3幀可與可能的SI模板的第2幀相匹配，而訓練採樣的接著的10幀可與可能的SI模板的第3幀相匹配。在該情況下，將把訓練採樣的最初5幀分段成一個幀，將把接著的3幀分段成第2幀，並把接著的10幀分段成第3幀。在一個實施例中，K均值語音分段邏輯410按照通過引用而充分結合於此的Lawrence Rabiner和Biing-Hwang Juang的「Fundamentals of Speech Recognition」(1993)中的382-384頁中描述的示例性K均值分段技術進行K均值分段。然後K均值語音分段邏輯410把群集均值的更新幀提供給矢量量化器406，後者對群集均值進行矢量量化，並把產生的矢量(包括新的可能的SI模板)提供給收斂檢測器408，以進行另一次收斂測試。本領域的一個技術人員將理解只要對於實現超過上述預定閾值的方差和精確度是必要的，就繼續進行該迭代過程。
一旦通過了收斂測試，可能的(現在是最終的)SI模板可有利地用於諸如圖2的話音識別子系統之類的話音識別子系統中。最終的SI模板將存儲於圖2的模板資料庫108中，或用於圖3的流程圖的步驟206之中。
在一個實施例中，與說話者無關的模板構建子系統(未示出)執行圖6中所說明的方法步驟。在步驟500中，從訓練資料庫(未示出)獲得話語的訓練採樣。訓練資料庫最好包含大量的單詞(如100個)，各單詞由大量的說話者說出(如每個單詞100個說話者)。然後控制流進行到步驟502。
在步驟502中，對訓練採樣進行端點檢測，以檢測話語。在一個實施例中，按照上述美國申請序列號09/246,414以及上述參考圖2所述的技術來執行所述端點檢測。然後，控制流進行到步驟504。
在步驟504中，對經檢測的話語執行時間群集語音分段，從而把該話語壓縮成多個分段，各分段由一個均值表示。在某一特定實施例中，把話語壓縮成20個分段，各分段包括一群集均值。在一個實施例中，根據上述美國申請序列號09/225,891以及上述參考圖2所述的技術來進行所述時間群集語音分段。然後控制流進行到步驟506。
在步驟506中，對同一單詞的所有說話者的訓練採樣的群集均值進行矢量量化。在某些實施例中，根據A.Gersho和R.M.Gray的「Vector Quantizationand Signal Compression」(1992)中描述的各種已知VQ技術的任一種來對群集均值進行矢量量化。在某一實施例中，產生4群集矢量。從而例如把各分段表示為4個群集。各個群集表示某一單詞的每個說話者，並且每個單詞有多個群集。按照一個實施例，每模板產生80個矢量(4個群集乘以20個分段)。然後，控制流前進到步驟510。
在步驟508中，從測試資料庫(未示出)獲得測試採樣，以用於進行收斂測試。測試資料庫最好包含與訓練資料庫中包含的相同的單詞，各個單詞由大量的說話者說出(如每個話語100個說話者)。然後控制流進行到步驟510。
在步驟510中，把經量化的矢量作為可能的SI模板與測試採樣進行比較，以進行收斂測試。在一個實施例中，收斂測試是DTW算法。所採用的DTW算法最好是Lawrence Rabiner和Biing-Hwang Juang的「Fundamentals of SpeechRecognition」(1993)中的第200至238頁中以及上述參考圖2描述的技術。
在一個實施例中，步驟510的收斂測試分析資料庫中的所有單詞的結果的精確度以及資料庫與可能的SI模板間的方差。首先檢查方差，如果該方法落於預定閾值之下，則檢查精確度。最好每段計算方差，並然後相加以產生總體方差值。在某一特定實施例中，通過對4個群集的最佳匹配計算均方誤差來獲得所述方差。所述均方誤差技術在本領域中是眾所周知的。如果由測試資料庫產生的可能的SI模板與來自訓練資料庫的話語相匹配(即，如果對於資料庫中所有的單詞來說，識別是正確的)，則把收斂測試定義為是精確的。然後控制流進行到步驟512。
在步驟512中，如果步驟510的收斂測試的方差或精確度的結果落於方差和精確度的預定閾值之下，則執行另一次迭代。因此，對訓練採樣執行K均值分段。最好利用DTW技術，K均值語音分段使訓練採樣與可能的SI模板相匹配，從而產生如參考圖2所述的最優路徑。然後按照該最優路徑對訓練採樣進行分段。在一個實施例中，按照Lawrence Rabiner和Biing-Hwang Juang的「Fundamentals of Speech Recognition」(1993)中的382-384頁中描述的技術進行K均值語音分段。然後控制流進行到步驟506，在其中對群集均值的更新幀進行矢量量化，並在步驟510中(作為新的可能的SI模板)用來自測試資料庫的採樣進行收斂測試。本領域的一個技術人員將理解只要對於實現超過上述預定閾值的方差和精確度是必要的，就可繼續進行該迭代過程。
一旦通過了收斂測試(即，一旦達到了所述閾值)，可能的(現在是最終的)SI模板可有利地用於諸如圖2的話音識別子系統之類的話音識別子系統中。最終的SI模板將存儲於圖2的模板資料庫108中，或用於圖3的流程圖的步驟206之中。
從而，已描述了一種用於構造與說話者無關的話音識別系統的話音模板的新穎的和改進的方法和設備。本領域的技術人員將理解貫穿於上述描述中的可能引用的數據、指令、命令、信息、信號、比特、碼元以及碼片可有利地用電壓、電流、電磁波、磁場或磁粒子、光場或光粒子或它們的任何組合來表示。本領域的技術人員還將理解連同這裡所揭示的實施例一起描述的各種說明性的邏輯塊、模塊、電路和算法步驟可實現為電子硬體、計算機軟體或兩者的組合。已一般按照它們的功能性描述了各種說明性的元部件、塊、模塊、電路和步驟。是把功能實現為硬體還是軟體，這取決於某一特定應用以及強加於整個系統上的設計限制。技術人員認識到在這些情況下的硬體和軟體的互換性，以及怎樣最佳地實現所述的各特定應用的功能。作為例子，可用數位訊號處理器(DSP)、專用集成電路(ASIC)、現場可編程門陣列(FPGA)或其它可編程邏輯器件、離散門或電晶體邏輯、諸如寄存器和FIFO之類的離散硬體部件、執行一組固件指令的處理器、任何常規可編程軟體模塊以及處理器、或設計成執行這裡所述的功能的上述元部件的組合，來實現或執行連同這裡所揭示的實施例一起描述的各種說明性的邏輯塊、模塊、電路和算法步驟。處理器可最好是微處理器，但是作為替代，處理器可以是任何常規的處理器、控制器或狀態機。軟體模塊可駐留於RAM存儲器、快閃記憶體存儲器、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬碟、可拆卸式磁碟、CD-ROM或本領域中已知的任何其它形式的存儲媒體之中。示例性的處理器最好耦合至存儲媒體，以便從中讀取信息，並把信息寫入存儲媒體中。作為替代，存儲媒體可集成於處理器。處理器和存儲媒體可駐留於ASIC中。ASIC可駐留於電話機中。作為替代，處理器和存儲媒體可駐留於電話機中。可把處理器實現為DSP和微處理的組合，或兩個微處理器與一個DSP核芯等等。
從而已示出和描述了本發明的較佳實施例。然而，本領域的技術人員將理解可對這裡所揭示的實施例作出許多替換，而不背離本發明的要旨和範圍。因此，要按照下面的權利要求書來限制本發明。
權利要求
1.一種建立用於與說話者無關的語音識別系統的語音模板的方法，其特徵在於該方法包括對第1組多個話語中的各話語進行分段，以對各話語產生多個時間群集的分段，各時間群集的分段由一譜均值表示；對所述所有第1組多個話語的多個譜均值進行量化，以產生多個模板矢量；把所述多個模板矢量的每一個與第2組多個話語相比較，以產生至少一個比較結果；如果所述至少一個比較結果超過至少一個預定閾值，則將所述第1組多個話語與所述多個模板矢量相匹配，以產生最優匹配路徑結果；根據所述最優匹配路徑結果在時間上劃分所述第1組多個話語；重複所述量化、比較、匹配和劃分，直到所述至少一個比較結果不超過任一至少一個預定閾值為止。
2.如權利要求1所述的方法，其特徵在於所述比較包括計算方差量度。
3.如權利要求1所述的方法，其特徵在於所述比較包括計算精確度量度。
4.如權利要求1所述的方法，其特徵在於所述比較包括首先計算方差量度，並且如果所述方差量度不超過第1預定閾值，則其次計算精確度量度。
5.如權利要求4所述的方法，其特徵在於所述匹配包括如果所述方差量度超過所述第1預定閾值或者所述精確度量度超過第2預定閾值，則使第1話語與所述多個模板矢量相匹配。
6.如權利要求1所述的方法，其特徵在於所述比較包括執行動態時間翹曲計算。
7.如權利要求1所述的方法，其特徵在於所述匹配包括執行動態時間翹曲計算。
8.如權利要求1所述的方法，其特徵在於所述匹配和所述劃分包括執行K均值分段計算。
9.如權利要求1所述的方法，其特徵在於進一步包括檢測第1話語的端點。
10.一種配置成建立用於與說話者無關的語音識別系統的語音模板的設備，其特徵在於該設備包括用於對第1組多個話語中的各話語進行分段，以對各話語產生多個時間群集的分段的裝置，各時間群集的分段由一譜均值表示；用於對所述所有第1組多個話語的多個譜均值進行量化，以產生多個模板矢量的裝置；用於把所述多個模板矢量的每一個與第2組多個話語相比較，以產生至少一個比較結果的裝置；用於如果所述至少一個比較結果超過至少一個預定閾值，則將所述第1組多個話語與所述多個模板矢量相匹配，以產生最優匹配路徑結果的裝置；用於根據所述最優匹配路徑結果在時間上劃分所述第1組多個話語的裝置；用於重複所述量化、比較、匹配和劃分，直到所述至少一個比較結果不超過任一至少一個預定閾值為止的裝置。
11.一種配置成建立用於與說話者無關的語音識別系統的語音模板的設備，其特徵在於該設備包括分段邏輯，配置成對第1組多個話語中的各話語進行分段，以對各話語產生多個時間群集的分段，各時間群集的分段由一譜均值表示；耦合至所述分段邏輯的量化器，配置成對所述所有第1組多個話語的多個譜均值進行量化，以產生多個模板矢量；耦合至所述量化器的收斂測試器，配置成把所述多個模板矢量的每一個與第2組多個話語相比較，以產生至少一個比較結果；耦合至所述量化器和所述收斂測試器的劃分邏輯，配置成如果所述至少一個比較結果超過至少一個預定閾值，則將所述第1組多個話語與所述多個模板矢量相匹配，以產生最優匹配路徑結果，以及根據所述最優匹配路徑結果在時間上劃分所述第1組多個話語，其中所述量化器、所述收斂測試器以及所述劃分邏輯進一步配置成重複量化、比較、匹配和劃分，直到所述至少一個比較結果不超過任一至少一個預定閾值為止。
12.如權利要求11所述設備，其特徵在於所述至少一個比較結果是方差量度。
13.如權利要求11所述設備，其特徵在於所述至少一個比較結果是精確度量度。
14.如權利要求11所述設備，其特徵在於所述至少一個比較結果是方差量度和精確度量度，其中所述收斂測試器配置成首先計算方差量度，並且如果所述方差量度不超過第1預定閾值，則其次計算精確度量度。
15.如權利要求14所述設備，其特徵在於所述匹配包括如果所述方差量度超過所述第1預定閾值或者所述精確度量度超過第2預定閾值，則使第1話語與所述多個模板矢量相匹配。
16.如權利要求11所述的方法，其特徵在於所述收斂測試器配置成執行動態時間翹曲計算。
17.如權利要求11所述的方法，其特徵在於所述劃分邏輯配置成執行動態時間翹曲計算。
18.如權利要求11所述的方法，其特徵在於所述劃分邏輯包括K均值語音分段邏輯。
19.如權利要求11所述的方法，其特徵在於進一步包括耦合至所述劃分邏輯並配置成檢測第1話語的端點的端點檢測器。
20.一種配置成建立用於與說話者無關的語音識別系統的語音模板的設備，其特徵在於該設備包括處理器，以及耦合至所述處理器的存儲媒體，該存儲媒體包含一組由處理器可執行的指令，用於對第1組多個話語中的各話語進行分段，以對各話語產生多個時間群集的分段，各時間群集的分段由一譜均值表示，對所述所有第1組多個話語的多個譜均值進行量化，以產生多個模板矢量，把所述多個模板矢量的每一個與第2組多個話語相比較，以產生至少一個比較結果，如果所述至少一個比較結果超過至少一個預定閾值，則將所述第1組多個話語與所述多個模板矢量相匹配，以產生最優匹配路徑結果，根據所述最優匹配路徑結果在時間上劃分所述第1組多個話語，以及重複量化、比較、匹配和劃分，直到所述至少一個比較結果不超過任一至少一個預定閾值為止。
21.如權利要求20所述的設備，其特徵在於所述至少一個比較結果是方差量度。
22.如權利要求20所述設備，其特徵在於所述至少一個比較結果是精確度量度。
23.如權利要求20所述設備，其特徵在於所述至少一個比較結果是方差量度和精確度量度，其中所述指令組可由所述處理器執行，來首先計算方差量度，並且如果所述方差量度不超過第1預定閾值，則其次計算精確度量度。
24.如權利要求23所述設備，其特徵在於所述指令組可由所述處理器進一步執行，如果任一個所述方差量度超過所述第1預定閾值或者所述精確度量度超過第2預定閾值，則使第1話語與所述多個模板矢量相匹配。
25.如權利要求20所述的方法，其特徵在於所述指令組可由所述處理器執行，以通過執行動態時間翹曲計算來把所述多個矢量模板的每一個與所述多個話語相比較。
26.如權利要求20所述的方法，其特徵在於所述指令組可由所述處理器執行以匹配劃分邏輯，後者配置成通過執行動態時間翹曲計算使第1話語與所述多個矢量模板相匹配。
27.如權利要求20所述的方法，其特徵在於所述指令組可由所述處理器執行，以通過執行K均值語音分段計算來劃分第1話語。
28.如權利要求20所述的方法，其特徵在於所述指令組可由所述處理器進一步執行，以檢測第1話語的端點。
29.一種處理器可讀媒體，包含一組可由處理器執行的指令，其特徵在於處理器執行該組指令用來對第1組多個話語中的各話語進行分段，以對各話語產生多個時間群集的分段，各時間群集的分段由一譜均值表示；對所述所有第1組多個話語的多個譜均值進行量化，以產生多個模板矢量；把所述多個模板矢量的每一個與第2組多個話語相比較，以產生至少一個比較結果；如果所述至少一個比較結果超過至少一個預定閾值，則將所述第1組多個話語與所述多個模板矢量相匹配，以產生最優匹配路徑結果；根據所述最優匹配路徑結果在時間上劃分所述第1組多個話語；重複所述量化、比較、匹配和劃分，直到所述至少一個比較結果不超過任一至少一個預定閾值為止。
全文摘要
一種用於構造與說話者無關的話音識別系統的話音模板的方法和設備，包括對一訓練話語進行分段，以產生時間群集的分段，各分段由一均值表示。對一給定單詞的所有話語的均值進行量化，以產生模板矢量。把各模板矢量與測試話語相比較，以產生比較結果。所述比較一般是動態時間翹曲計算。如果比較結果超過至少一個預定閾值，則將訓練話語與模板矢量相匹配，以產生最優路徑結果，並且根據所述最優路徑結果劃分所述訓練話語。所述劃分一般是K均值分段計算。然後可對經劃分的話語進行再量化，並與測試話語進行再比較，直到不超過至少一個預定閾值為止。
文檔編號G10L15/00GK1441947SQ01812771
公開日2003年9月10日申請日期2001年7月11日優先權日2000年7月13日
發明者畢寧申請人:高通股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於與說話者無關的話音識別系統的構造話音模板的方法和設備的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法