使用隱含語者自適應的語音識別系統的製作方法
2023-12-08 23:07:11 2
專利名稱:使用隱含語者自適應的語音識別系統的製作方法
技術領域:
本發明涉及語音信號的處理。更具體的說,本發明涉及通過非監督式訓練 來獲得性能改善的新穎語音識別方法和裝置。技術背景語音識別是最重要的技術之一,它可賦予機器以模擬智能,用於識別用戶 的語音命令且便於作為人類與機器的接口。採用從聲學語音信號中恢復語言信 息的技術的系統被稱為語音識別(VR)系統。
圖1顯示了基本的VR系統,它 包括預加重濾波器102,聲學特徵提取(AFE)單元104,以及模式匹配引擎 110。 AFE單元104將一系列數字語音樣本轉變為一組測量數值(例如,被提 取的頻率分量),該測量數值可稱之為聲學特徵矢量。模式匹配引擎110將一 系列聲學特徵矢量與在VR聲學模型112中所包含的模板相匹配。VR模式匹 配引擎 一 般採用動態時間規整(DTW , Dynamic Timing Warping)或隱馬爾可 夫(Markov)模型(HMM)技術。DTW或HMM都是在本領域中所熟悉的, 並且在Rabiner, L.R和Juang, B.H編著的《語音識別的基礎》(Prentic Hall 出版,1993年出版)中詳細討論了。當一系列聲學特徵與在聲學模型112中所 包含的一個模板相匹配時,可用該被識別的模板產生所希望的輸出格式,例如, 對應於輸入語音的語言詞彙的識別序列。正如以上所指出的,聲學模型112 —般是HMM模型或者DTW模型。DTW 聲學模型可以認為是與需要識別的各種詞彙有關的模板資料庫。 一般來說, DTW模板包括特徵矢量的序列,該特徵矢量序列是根據許多相關詞彙的例子 加以平均的。DTW模式匹配一般會涉及到將具有最小距離的存儲模板置於表示輸入語音的輸入特徵矢量序列中。在基於HMM的聲學模型中使用的模板包含了對相關語音發音的詳細統計描述。 一般來說,HMM模板存儲了一系列的 平均矢量、方差矢量和一組轉變的概率。這些參數可用於描述語音單元的統計 並且是從許多語音單元的例子中估算出來的。HMM模式匹配一般涉及到根據 與輸入語音相關的輸入特徵矢量系列,為模型中的各個模板生成概率。具有最 高概率的模板可選擇為最類似輸入的發音。"訓練"是指從一個和多個語者的特殊語音片段和音節中收集語音樣本以 便於產生聲學模型112中的模板的過程。在聲學模型中的各種模板與稱為發音 種類的特殊詞彙或語音片段有關。在與同一發音種類有關的聲學模型中可以有 許多模板。"測試"是指將聲學模型中的模板與從輸入語音中提取的特徵矢量 序列相匹配的過程。給定系統的性能很大程度上取決於最終用戶的輸入語音和 資料庫中的內容之間的匹配程度,因此,也取決於在通過訓練所產生的參考模 板和用於V R測試的語音樣本之間的匹配。兩種常用類型的訓練是監督式訓練和非監督式訓練。在監督式訓練中,與 各組訓練特徵矢量有關的發音種類是先驗已知的。提供輸入語音的語者通常具 有對應於預定發音種類的詞彙和語音片段的原稿。隨後,朗讀原稿所產生的特 徵矢量可以合併到與正確發音種類有關的聲學模型模板中。在非監督式訓練中,與一組訓練特徵矢量有關的發音種類不是先驗已知 的。在一組訓練特徵矢量可以合併到正確的聲學模型模板中之前,必須正確地 識別發音種類。在非監督式訓練中,在對一組訓練特徵矢量識別發音種類時發 生錯誤會導致在錯誤的聲學模型模板中引起變化。此類錯誤一般會降低,而不 是提高語言識別性能。為了能避免這類錯誤,基於非監督式訓練的聲學模型的 任何變化一般都必須非常小心地來進行。只有具有相當高的可信程度認為已經 正確識別了發音種類,則該組訓練特徵量才可以合併到聲學模型中。這類必要 的保守使得通過非監督式訓練來構成SD聲學模型是一個非常慢的處理過程。 直到SD聲學模型採用該方法來構成,VR性能或許對大多數用戶是難以接受 的。最佳的是,最終的用戶在訓練和測試過程中提供語音聲學特徵矢量,使得 聲學模型112能與最終用戶的語音有力匹配。適用於單個語者的個性化聲學模 型也可稱為語者特定(SD)聲學模型。產生SD聲學模型一般要求最終用戶能 提供大量監督式訓練樣本。首先,用戶必須為許多不同的發音種類提供訓練樣本。同樣,為了獲得最好的性能,最終用戶必須為各個發音種類提供表示各種 可能的聲學環境的多個模板。因為大多數用戶不能或者不希望提供產生SD聲 學模型所需的輸入語音,所以許多現有的VR系統使用廣義的聲學模型作為替 代,該模型是釆用許多"代表性"語者的語音來訓練的。這類聲學模型可稱為 語者無關(SI)聲學模型,並且可設計成對廣泛範圍的用戶都具有最好的性能。然而,SI聲學模型並不是對任何一個用戶都是最佳的。使用SI聲學模型的VR 系統對特殊的用戶並不能像使用適合於該用戶的SD聲學模型的VR系統那樣 工作。對某些用戶來說,例如,具有強烈的外地口音的用戶,使用SI聲學模型 的VR系統的性能就非常差,以致於根本不能有效地使用VR的服務。最佳的是,對各個個性的用戶產生SD聲學模型。正如以上所討論的,使 用監督式訓練來構成SD聲學模型是不實際的。但是,使用非監督式訓練來產 生SD聲學模型會花費很長的時間,在這過程中,基於部分SD聲學模型的VR 性能將是非常差的。因此,本領域需要一種VR系統,該系統能在使用非監督 式訓練來產生SD聲學模型之前或過程中比較好地工作。發明內容本文所揭示的方法和裝置提出了一種新穎和改進的語音識別(VR)系統, 該系統採用了語者無關(SI)和語者特定(SD)聲學模型的組合。將至少一個 SI聲學模型與至少一個SD聲學模型組合使用,以使得所提供的語音識別性能 的水平至少等於純SI聲學模型的水平。所揭示的混合SI/SDVR系統可繼續使 用非監督式訓練來更新在一個或多個SD聲學模型中的聲學模板。混合的VR 系統隨後單獨或與至少一個SI聲學模型組合使用更新的SD聲學模型,以便於 在VR測試過程中提供改進的VR性能。本文所使用的術語"示例"是指"用作一個例子、實例、或說明"。作為 "示例性實施例"所討論的任何實施例並不一定解釋為好過或勝過其它實施 例。附圖的簡要說明從結合附圖所闡明的詳細討論中,本發明所揭示的方法和裝置的性能、目 標和優點將變得顯而易見,在附圖中,類似的參考符號將標示所對應的部件,其中圖1示出基本語音識別系統;圖2示出根據示例性實施例的語音識別系統;圖3示出用於進行非監督式訓練的方法;圖4示出用於產生在非監督式訓練中所使用的組合匹配評價的示例性方法;圖5是示出使用語者無關(SI)和語者特定(SD)匹配評價兩者來進行語 音識別(測試)方法的流程圖;圖6示出用於從語者無關(SI)和語者特定(SD)匹配評價中產生組合匹 配評價的方法。具體實施方法圖2顯示了可以在無線遠程站202中實現的混合語音識別(VR)系統的示 例性實施例。在該示例性實施例中,遠程站202通過無線信道(未顯示)與無 線通信網絡(未顯示)通信。例如,遠程站202可以是與無線電話系統通信的 無線電話。在本領域的專業人士會意識到,本文所討論的技術可以同樣應用於 固定(不是便攜的)的VR系統或者不包括無線信道。在所示的實施例中,來自用戶的語音信號在麥克風(MIC) 210中轉換成 電信號,並且在模擬數字變換器(ADC) 212轉換成數字語音樣本。該數字樣 本流隨後使用預加重(PE)濾波器214進行濾波,例如,可以採用衰減低頻信 號分量的有限脈衝響應(FIR)濾波器。濾波後的樣本隨後在聲學特徵提取(AFE)單元216中進行分析。該AFE 單元216將數字語音樣本轉換成聲學特徵矢量。在示例性實施例中,AFE單元 216對具有連續的數字樣本的片段進行傅立葉變換,以產生對應於不同頻率箱 的信號強度的矢量。在示例性實施例中,頻率箱可以根據巴克標度(bark scale) 來變化帶寬。在巴克標度中,各個頻率箱的帶寬具有與箱的中心頻率有關的關 系,使得更高頻率箱可具有比較低頻率箱更寬的頻率帶寬。在Rabiner, L.R和 Juang, B.H編著的《語音識別的基礎》(Prentic Hall出版,1993年出版)討 論了巴克標度。在示例性實施例中,各個聲學特徵矢量是從在固定時間間隔中所收集的一 系列語音樣本中提取的。在示例性實施例中,這些時間間隔是重疊的。例如, 聲學特徵可以從每個10毫秒開始的語音數據的20毫秒間隔中獲得,使得每兩個連續的間隔都可以公用IO毫秒的片段。在本領域中的專業人士都會意識到, 可以在不脫離本文所揭示實施例的範圍的條件下,時間間隔可以被替換成非重 疊的或者具有非固定的周期。由AFE單元216所產生的聲學特徵矢量可提供給VR引擎220,該引擎進 行模式匹配,以便根據一個和多個聲學模型230、 232和234的內容表徵聲學 特徵矢量的特徵。在圖2所示的示例性實施例中,顯示了三個聲學模型語者無關(SI)隱 馬爾可夫模型(HMM)的模型230,語者無關動態時間規整(Dynamic Time Warping) (DTW)模型232,以及語者特定(SD)聲學模型234。本領域的 專業人士將會意識到,在其它實施例中可以使用SI聲學模型的不同組合。例如, 遠程站202可以僅包括SIHMM聲學模型230和SD聲學模型234,而省去了 SIDTW聲學模型232。另外,遠程站202可以包括單個的SIHMM聲學模型230, 一個SD聲學模型234和兩個不同的SIDTW聲學模型232。另外,本領域的專 業人士將會意識到,SD聲學模型234可以是HMM類型的或者是DTW類型的 或者是兩者的組合。在示例性實施例中,SD聲學模型234是DTW聲學模型。正如以上所討論的,VR引擎220進行模式匹配,以確定在聲學特徵矢量 和一個或多個聲學模型230、 232和234的內容之間的匹配程度。在示例性實 施例中,VR引擎220根據聲學特徵的矢量與在各個聲學模型230、 232和234 中的不同聲學模板的匹配來產生匹配的評價。例如,VR引擎220根據一組聲 學特徵矢量與在SIHMM聲學模型230中的多個HMM模板的匹配來產生HMM 匹配的評價。同樣,VR引擎220根據聲學特徵的矢量與在SIDTW聲學模型 232中的多個DTW模板的匹配來產生DTW匹配的評價。VR引擎220根據聲 學特徵矢量與在SD聲學模型234中的模板的匹配來產生匹配的評價。正如以上所討論的,在聲學模型中的各個模板是與發音種類有關的。在一 個示例性實施例中,VR引擎220組合了與相同發音種類有關的模板的評價, 以產生將在非監督式訓練中使用的組合匹配評價。例如,VR引擎220組合了 通過使一組輸入的聲學特徵矢量相關所獲得的SIHMM和SIDTW的評價,從 而產生組合的SI評價。根據該組合的匹配評價,VR引擎220確定是否存儲該 組輸入的聲學特徵矢量作為在SD聲學模型234中的SD模板。在一個示例性 實施例中,使用獨特的SI匹配評價來進行用於更新SD聲學模型234的非監督 式訓練。這就防止了在對其本身進行非監督式訓練而使用擴展的SD聲學模型234所引發的其它差錯。進行非監督式訓練的示例性方法將在下文中作更詳細 的討論。除了非監督式訓練之外,VR引擎220在測試過程中使用了各種聲學模型 (230, 232和234)。在示例性實施例中,VR引擎220從聲學模型(230, 232 和234)中檢索匹配的評價,並且產生適用於各個發音種類的組合匹配評價。 組合匹配評價可用於選擇最佳匹配於輸入語音的發音種類。VR引擎220根據 需要將連續發音種類集合在一起,以識別整個詞彙或短語。隨後,VR引擎220 將有關識別的詞彙或短語的信息提供給控制處理器222,該處理器222使用該 信息來確定對語音信息或命令的適當響應。例如,響應於所識別的詞彙或短語, 控制處理器222可以提過顯示器或其它用戶接口向用戶提供反饋。在另一個實 施例中,控制處理器222可以通過無線數據機218和天線224向無線網絡 (未顯示)發送信息,開始對與被發音和被識別的人的名字有關的目標電話號 碼的行動電話呼叫。無線數據機218可以通過包括CDMA、 TDMA或FDMA的多種無線 信道類型中的任何一種來發送信號。此外,無線數據機218可以採用通過 非無線信道通信的其它類型的通信接口來替代,這並不脫離所揭示實施例的範 圍。例如,遠程站202可以通過任何一類通信信道來發送信令信息,其中通 信信道的類型可以包括地面一有線數據機、T1/E1、 ISDN、 DSL、乙太網、 或者甚至是印刷電路板(PCB)上的線徑。圖3是顯示進行非監督式訓練的示例性方法的流程圖。在步驟302,模擬 數字轉換器(ADC)(圖2中212)採樣模擬語音數據。隨後,在步驟304, 使用預加重(PE)濾波器(圖2中的214)濾波數字樣本流。在步驟306,聲 學特徵提取(AFE)單元(圖2中的216)從濾波後的樣本中提取輸入的聲學 特徵矢量。VR 引擎(圖2中的220)接收來自AFE單元216的輸入聲學特 徵矢量,並且進行輸入聲學特徵矢量與SI聲學模型(圖2中的230和232)中 的內容的模式匹配。在步驟308, VR引擎220從模式匹配的結果中產生匹配的 評價。VR引擎220通過輸入聲學特徵矢量與SIHMM聲學模型230的匹配產生 SIHMM匹配評價,並且通過輸入聲學特徵矢量與SIDTW聲學模型232的匹配 產生SIDTW匹配評價。在SIHMM和SIDTW聲學模型(230和232)中的各 個聲學模板都與特定的發音種類相關。在步驟310,對SIHMM和SIDTW評價 進行組合,以形成組合匹配評價。圖4顯示了在非監督式訓練中使用的組合匹配評價的產生。在示例性實施 例中,關於一特定發音種類的語者無關組合匹配評價SC0MB—51是根據圖示的等 式1的加權和,其中SIHMMT是目標發音種類的SIHMM匹配評價;SIHMM^是適用於SIHMM聲學模型中與非目標發音種類(不是目標發音 種類的發音種類)有關的模板的下一個最佳匹配評價;SIHMMc是適用於"垃圾(garbage)"發音種類的SIHMM的匹配評價。 SIDTW"r是目標發音種類的SIDTW匹配評價;SIDTWwt是造用於SIDTW聲學模型中與非目標發音種類有關的模板的下 一個最佳匹配;以及,SIDTWc是適用於"垃圾"發音種類的SIDTW的匹配評價。各種個體的匹配評價SIHMMn和SIDTWn可以被視為表示在一系列輸入聲 學特徵矢量和聲學模型中一模板之間的距離值。輸入聲學特徵矢量和模板之間 的距離越長,則匹配的評價就越大。模板和輸入聲學特徵矢量之間的緊密匹配 會產生非常低的匹配評價。如果將一系列輸入聲學特徵矢量與兩個和不同發音 種類相關的模板比較且產生近似相等的兩個匹配評價,則VR系統就不能識別 哪一個是"正確"的發音種類。SIHMMe和SIDTWc是適用於"垃圾"發音種類的匹配評價。與垃圾發音 種類相關的一個模板或多個模板都稱為垃圾模板並且不會對應於具體的詞彙 和短語。正是這個原因,它們對所有的輸入語音都同樣趨於不正確,垃圾匹配 評價作為一種在VR系統中的噪聲水平的測量是非常有用的。 一般來說,在可 以確信能識別發音種類之前, 一系列的輸入聲學特徵矢量對與目標發音種類相 關的模板的匹配程度應該比與垃圾模板的匹配程度好得多。在VR系統可以確信識別出一個發音種類為"正確"的發音種類之前,輸 入聲學特徵矢量對與該發音種類相關的模板的匹配程度應該比對與其它發音 種類相關的垃圾模板和其他模板有關的匹配程度更高。比基於單一聲學模型的 匹配評價相比,從各種聲學模型中產生的組合匹配評價可以在發音種類之間得 到更加確定的區分。在示例性實施例中,VR系統使用這類組合匹配評價來確 定是否採用從一組新的輸入聲學特徵矢量中獲得的模板來取代在SD聲學模型 (圖2中的234)中的模板。可以選擇加權因子(W….W6)來提供在整個聲學環境中的最佳訓練性能。在示例性實施例中,加權因子(W,.,.W6)在所有的發音種類中都是恆定的。 換句話說,用於產生第一目標發音種類的組合匹配評價所使用的Wn和用於產 生另一個目標發音種類的組合匹配評價所使用的Wn是相同的。在另一個實施例中,加權因子根據目標發音種類而變化。對本領域的專業人士來說,進行圖4所示組合的其他方法是顯而易見的,並且可以視為在本文所討論實施例的範 圍中。例如,也可以使用大於6或小於6的加權輸入。另一個顯而易見的變化 是根據一類聲學模型來產生組合的匹配評價。例如,根據SIHMMt, SIHMMnt 和SIHMMc來產生組合匹配評價,或者根據SIDTWt, SIDTWNT和SIDTWG來產生組合匹配評價。在示例性實施例中,W,和W4是負數,並且So)mb的較大(即負得較少) 數值表示在目標發音種類和一系列輸入聲學特徵矢量之間有較大程度的匹配 (較小的距離)。在本領域中的專業人士會意識到,在不脫離所揭示實施例的 範圍的條件下,加權因子的符號可以容易地重新設置,使得較大程度的匹配可 以對應較小的數值。再返回到圖3,在步驟310,為與HMM和DTW聲學模型(230和232) 中的模板相關的發音種類產生組合匹配評價。在示例性實施例中,只為與最佳 的n個SIHMM匹配評價相關的發音種類和與最佳的m個SIDTW匹配評價相 關的發音種類產生組合匹配評價。為保存計算資源,此限制是需要的,即使在 產生各個匹配評價時需消耗大量的計算功率。例如,如果n二m^3,可以為與 最好的三個SIHMM匹配評價相關的發音種類和與最好的三個SIDTW匹配評 價相關的發音種類產生組合匹配評價。根據與最好的三個SIHMM匹配評價相 關的發音種類是否和與最好的三個SIDTW匹配評價相關的發音種類相同,此 方法會產生三個至六個不同的組合匹配評價。在步驟312,遠程站202將組合匹配評價與所對應的模板一起存儲在SD 聲學模型中的組合匹配評價進行比較。如果對於相同的發音種類,新的輸入聲 學特徵矢量系列比存儲在SD模板中的舊的模板具有更大的匹配程度,那麼從 新的輸入聲學特徵矢量系列中產生新的SD模板。在SD聲學模型是DTW聲學 模型的實施例中,輸入聲學特徵矢量系列自身就構成新的SD模板。隨後,用 新的模板替代舊的模板,並且將與新的模板有關的組合匹配評價存儲在SD聲 學模型中,供以後比較使用。在替換的實施例中,非監督式訓練用於更新語者特定隱馬爾可夫模型(SDHMM)的聲學模型中的一個和多個模板。該SDHMM聲學模型可以代替 SDDTW模型使用,或者除了 SDDTW模型以外,也在SD聲學模型234中使 用。在示例性實施例中,在步驟312中的比較還包括將預期的新SD模板的組 合匹配評價與恆定訓練閎值進行比較。即使在SD聲學模型中還沒有存儲任何 適用於一特定發音種類的模板,則新的模板也不能存儲在SD聲學模型中,除 非它具有比訓練閾值的數值更好的組合匹配評價(表示匹配程度更大)。在替換的實施例中,在替代SD聲學模型中的任何模板之前,SD聲學模型 一般是由SI聲學模型的模板來定義的。這樣的初始化提供了一種替換方法,用 於保證使用SD聲學模型的VR性能在開始時至少和只使用SI聲學模型的VR 性能一樣好。隨著越來越多的在SD聲學模型中的模板被更新,使用SD聲學 模型的VR性能會超越只使用SI聲學模型的VR性能。在替換的實施例中,VR系統允許用戶進行監督式訓練。用戶必須在進行 這類監督式訓練之前將VR系統置於監督式訓練的模式。在監督式訓練的過程 中,VR系統具有正確發音種類的先驗知識。如果關於輸入語音的組合匹配評 價好於為該發音種類在先存儲的SD模板的組合匹配評價,則用輸入語音形成 替換的SD模板。在替換的實施例中,VR系統允許用戶在監督式訓練過程中強 制替換現有的SD模板。SD聲學模型可以採用適用於單個發音種類的多個(兩個或多個)模板的 情況來設計。在替換的實施例中,在SD模型中為每個發音種類存儲了兩個模 板。因此,在步驟312所作的比較必然將用新模板所獲得的匹配評價與為SD 聲學模型中關於相同發音種類的兩個模板所獲得的匹配評價進行比較。如果新 的模板比在SD聲學模型中任何一個較舊的模板具有更好的匹配評價,則在步 驟314,具有最差匹配評價的SD聲學模型模板可採用該新的模板來替代。如 果新的模板的匹配評價沒有兩個舊的模板好,則跳過步驟314。另外,在步驟 312,將用新的模板所獲得的匹配評價與匹配評價的閾值進行比較。如此地, 在用新的模板來覆蓋SD聲學模型的原先內容之前,進行新的模板與該閾值數 值的比較,直到新的模板具有比存儲在SD聲學模型中的閾值更好的匹配評價。 可以預料各種顯而易見的變化,例如,根據組合匹配評價按分類次序存儲SD 聲學模型模板以及將新的匹配評價與最低的匹配評價進行比較,這些變化被認 為在本文所揭示的實施例的範圍內。還可以預料對於存儲在聲學模型中的關於各個發音種類的模板數的各種顯而易見的變化。例如,SD聲學模型可以對於 各個發音種類包含多於兩個的模板,或者可以對於不同發音種類包含不同數量的模板。圖5是顯示了採用SI和SD聲學模型的組合來進行VR測試的示例性 方法的流程圖。步驟302, 304, 306和308與圖3的討論相同。在步驟510, 該示例的方法不同於圖3所示的方法。在步驟510, VR引擎220根據輸入特徵 矢量與在SD聲學模型中模板的比較來產生SD匹配評價。在示例性實施例中, 只為與最佳n SIHMM匹配評價和最佳m SIDTW匹配評價相關的發音種類產生 SD匹配評價。在示例性實施例中,n=m=3。根據在兩組發音種類之間的重疊程 度,這可以導致為三個至六個發音種類產生SD匹配評價。正如以上所討論的, SD聲學模型可以包含單個發音種類的多個模板。在步驟512, VR引擎220產 生混合的組合匹配評價,供在VR測試中使用。在示例性實施例中,這些混合 的組合匹配評價是基於各個SI和各個SD匹配評價兩者的。在步驟514,可選 擇具有最佳組合匹配評價的詞彙或發音,並且將其與測試閾值相比較。如果某 個發音的組合匹配評價超過了測試閾值,只認為識別出該發音。在示例性實施 例中,用於產生訓練用組合評價的加權[W,…W6](如圖4所示)與用於產生 測試用組合評價的加權[W卜.W6](如圖6所示)是相同的,但是訓練的閾值不 同於測試的閾值。圖6顯示了在步驟512所進行的混合的組合匹配評價的產生。所示的示例 性實施例的操作雷同於圖4所示的組合器,除了釆用加權因子W4皮用於DTWt 以替代SIDTWT以及採用加權因子Ws應用於DTWOT以替代SIDTWot。從與 目標發音種類相關的SIDTW和SDDTW最佳評價中選擇DTWT (適用於目標 發音種類的動態時間規整匹配評價)。類似地,從與非目標發音種類相關的 SIDTW和SDDTW最佳評價中選擇DTWNT (適用於其餘非目標發音種類的動 態時間規整匹配評價)。適用於特殊發音種類的SI/SD混合評價ScoMB一h是根據圖示EQN.2的加權 和,式中SIHMMt, SIHMMnt, SIHMMg和SIDTWG與EQN.l中的SIHMMT, SIHMMNT,SIHMMg和SIDTWci是相同的。特別是,在EQN.2中SIHMMT是目標發音種類的SIHMM匹配評價;SIHMM^是適用於與非目標發音種類(不是目標發音種類的發音種類)有 關的SIHMM聲學模型中模板的下一個最佳匹配;SIHMMc是適用於"垃圾"發音種類的SIHMM匹配評價;DTWi是對應於目標發音種類的適用於SI和SD模板的最佳DTW匹配評價;DTWNT是對應於非目標發音種類的適用於SI和SD模板的最佳DTW匹配 評價;以及,SIDTWc是適用於"垃圾"發音種類的SIDTW匹配評價。於是,SI/SD混合評價ScoMB—h是各個SI和各個SD匹配評價的組合。最 終的組合匹配評價並不整個依賴於SI或SD聲學模型。如果匹配評價SIDTWT 比任何SDDTWT的評價要好,則從較好的SIDTWT評價中計算出SI/SD混合評 價。類似地,如果匹配評價SDDTWt比任何SIDTWT的評價要好,則從較好的 SDDTWT評價中計算出SI/SD混合評價。因此,如果在SD聲學模型中的模板 產生較差的匹配評價,則VR系統仍舊可以根據SI/SD混合評價的SI部分來識 別輸入語音。這類較差的SD匹配評價可以具有多種原因,包括在訓練和測試 過程中聲學環境之間的差異。或者或許是訓練所使用的較差質量的輸入。在替換的實施例中,對SI評價的加權輕於SD評價,或者甚至可以全部忽 略。例如,從與目標發音種類相關的最佳SDDTW評價中選擇DTWT,並忽略 該目標發音種類的SIDTW評價。同樣,可以從與非目標發音種類相關的最佳 SIDTW或SDDTW評價中選擇DTWNT,代替使用兩組評價。儘管只採用適用於語者特定模式的SDDTW聲學模型來討論示例性實施 例,本文所討論的混合方法可以同樣應用於使用SDHMM聲學模型或者甚至於 使用SDDTW和SDHMM聲學模型的VR系統。例如,通過改進圖6所示的方 法,加權因子W,可以應用於從最佳的SIHMMt和SDHMMT評價中選出的匹配 評價。加權因子W2可以應用於從最佳的SIHMMNT和SDHMMNT評價中選出的 匹配評價。於是,本文所揭示的是使用SI和SD聲學模型的組合來改善在非監督式訓 練和測試過程中的VR性能的VR方法和裝置。本領域的專業人士都會理解到 信息和信號可以釆用多種不同工藝和技術中任何一種來表示。例如,在以上討 論中所參考的數據、指令、命令、信息、信號、比特、碼元、和碼片都可以採 用電壓、電流、電磁波、磁場或粒子、光場或粒子,或者其上述的組合來表示。 同樣,儘管上述的實施例主要考慮了動態時間規整(DTW)或隱馬爾可夫模型 (HMM)聲學模型,但是所討論的技術同樣可以應用於其它類型的聲學模型, 例如,神經網絡聲學模型。本領域的普通專業人士還會進一步意識到,參考本文所揭示的實施例所討 論的各種說明性的邏輯單元、模塊、電路和算法步驟都可以採用電子硬體、計 算機軟體、及其兩者的組合來實現。為了能簡潔地說明這些硬體和軟體的互換 性,以上已經從功能上討論了各種說明性的元件、邏輯單元、模塊、電路以及 步驟。這些功能是實現為硬體還是軟體取決於施加在整個系統上的特定的應用 和設計制約。專業人士都可以採用各種特殊應用的變化方式來實現上述的功 能,但是這類實現方法都不應理解為脫離本發明的範圍。以上結合本文所揭示的實施例討論的各種說明性的邏輯單元、模塊、和電路可以採用通用處理器、數位訊號處理器(DPS)、專用集成電路(ASIC)、 現場可編程門陣列(FPGA)或者其它可編程邏輯器件、分立的門電路和晶體 管邏輯、分立硬體元件、或者為實現上述功能而設計的任何組合來實現或完成。 通用處理器可以是微處理器,但是在替換中,處理器可以是任何一種常規的處 理器、控制器、微控制器、或者狀態機。處理器也可以用計算器件的組合來實 現,例如,DSP和微處理器的組合、多個微處理器、 一個或多個結合DSP芯核 的微處理器,或者任何其它這類結構。結合本文揭示的實施例所討論的方法或算法的步驟可以直接嵌入在硬體 中、直接嵌入在處理器所執行的軟體模塊中、或者直接嵌入在兩者的組合之中。 該軟體模塊可以駐留在RAM存儲器,快閃記憶體存儲器、ROM存儲器、EPROM存 儲器、EPPROM存儲器、寄存器、硬碟、可移動盤、CD — ROM、或者本領域 中所熟悉的任何其它形式的存儲媒介中。示例性存儲媒介與處理器相耦合,使 得處理器能從存儲媒介中讀取信息,也可以將信息寫入該存儲媒介中。在替換 的實施例中,存儲媒介可以集成於處理器。處理器和存儲媒介可以駐留在ASIC 中。在替換的實施例中,處理器和存儲媒介可以駐留在用戶終端中的分立元件 中。上述揭示實施例的說明使得本領域任何專業人士都能夠產生或應用本發 明。對本領域任何專業人士來說,各種對這些實施例的改進都是顯而易見的, 本文所定義的基本原理可以在不脫離本發明的精神和範圍的條件下應用於其 它實施例。於是,本發明並不試圖受限於本文所顯示的實施例,而是考慮與本 文所揭示的原理和新穎特徵相一致的最廣泛範圍。
權利要求
1.一種語音識別方法,所述方法包括下述步驟將第一輸入語音片段與至少一個語者無關聲學模板進行模式匹配,以產生至少一個輸入模式匹配評價並且確定被識別的發音種類(308);將所述至少一個輸入模式匹配評價跟與被存儲的、對應於所識別的發音種類的聲學模板相關的評價進行比較(312);根據所述比較結果,用由所述第一輸入語音片段導出的新模板來替換所述被存儲的聲學模板;和用與所述新模板相關的所述至少一個輸入模式匹配評價來替換與所述被存儲的聲學模板相關的評價。
2. 如權利要求l所述的方法,其特徵在於,用於進行模式匹配的所述步驟還包括將所述第一輸入語音片段與至少一個隱馬爾可夫模型模板進行隱馬爾可夫模型模式匹配,以生成至少一個隱馬爾可夫模型匹配評價(308);將所述第一輸入語音片段與至少一個動態時間規整模板進行動態時間規整模 式匹配,以生成至少一個動態時間規整匹配評價(308);和對所述至少一個隱馬爾可夫模型匹配評價和所述至少一個動態時間規整匹配 評價求至少一個加權和,以生成所述至少一個輸入模式匹配評價(310)。
3. 如權利要求l所述的方法,其特徵在於,還包括將第二輸入語音片段與至少一個語者無關聲學模板進行模式匹配,以生成至 少一個語者無關匹配評價(308);將所述第二輸入語音片段與所述被存儲的聲學模板進行模式匹配,以生成語 者特定匹配評價(510);和將所述至少一個語者無關匹配評價與所述語者特定匹配評價進行組合,以生 成至少一個組合匹配評價(512)。
4. 如權利要求3所述的方法,其特徵在於,還包括識別與所述至少一個組 合匹配評價中的最佳組合匹配評價相關的發音種類。5. —種語音識別設備(202),所述設備包括用於將第一輸入語音片段與至少一個語者無關聲學模板進行模式匹配,以產 生至少一個輸入模式匹配評價並且確定被識別的發音種類的裝置;用於將所述至少一個輸入模式匹配評價跟與被存儲的、對應於所識別的發音種類的聲學模板相關的評價進行比較的裝置;根據所述比較結果,用由所述第一輸入語音片段導出的新模板來替換所述被 存儲的聲學模板的裝置;和用與所述新模板相關的所述至少一個輸入模式匹配評價來替換與所述被存儲 的聲學模板相關的評價的裝置。
全文摘要
本發明涉及使用隱含語者自適應的語音識別系統。具體地,揭示了一種語音識別(VR)系統,該系統採用語者無關(SI)(230和232)和語者特定(SD)(234)的聲學模型的組合。至少一個SI聲學模型(230和232)用於和至少一個SD聲學模型(234)的組合,以提供至少與純SI聲學模型的語音識別性能相同的水平。所揭示的SI/SD VR系統可連續使用非監督式的訓練,來更新在一個和多個SD聲學模型(234)中的聲學模板。混合的VR系統隨後使用與至少一個SI聲學模型(230和232)組合的經更新的SD聲學模型(234),在VR測試過程中提供改良的VR性能。
文檔編號G10L15/16GK101221758SQ20071019669
公開日2008年7月16日 申請日期2002年3月22日 優先權日2001年3月28日
發明者A·P·德雅柯, C·張, H·加魯達德裡, N·馬拉亞, S·賈裡爾, 寧 畢 申請人:高通股份有限公司