新四季網

一種聲學模型訓練方法和裝置製造方法

2023-12-08 23:16:36 1

一種聲學模型訓練方法和裝置製造方法
【專利摘要】本發明實施方式提出一種聲學模型訓練方法和裝置。方法包括:建立深層神經網絡模型初始模型;將語音訓練數據劃分為N個不相交的數據子集合,針對每個數據子集合利用隨機梯度下降算法更新深層神經網絡模型初始模型,得到N個深層神經網絡模型子模型,其中N為至少為2的自然數;融合N個深層神經網絡模型子模型以得到深層神經網絡模型中間模型,並當該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經網絡模型中間模型為訓練後聲學模型。本發明實施方式提高了聲學模型的訓練效率,並且不降低語音識別的性能。
【專利說明】一種聲學模型訓練方法和裝置

【技術領域】
[0001] 本發明實施方式涉及語音識別【技術領域】,更具體地,涉及一種聲學模型訓練方法 和裝置。

【背景技術】
[0002] 語音識別是將語音信號轉為文本的一種技術,是一種方便的人機互動方式,現廣 泛的應用於移動網際網路等領域中。語音識別是一個序列化的分類問題,目的是將收集到的 一連串語音信號轉化為一串文本輸出。語音識別技術所涉及的領域包括:信號處理、模式識 另IJ、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
[0003] 傳統的語音識別系統一般分為三個模塊,分別為:聲學模型,比如HMM-GMM系統框 架描述的模型;語言模型,比如N-Grams描述的模型;解碼器,用於結合聲學模型、語言模 型、發音字典等資源,將聲音信號轉換為文本信息。隨著近年來深層神經網絡(DNN)理論的 成熟,解決了多層網絡訓練的問題,同時也可以應用大量的非標註數據。在語音識別領域, DNN也顯示出強大的建模能力。無論是聲學模型訓練還是語言模型訓練,深層神經網絡都體 現出很好的實用效果。
[0004] 在傳統DNN模型訓練中,隨機梯度下降算法(Stochastic Gradient Descent, SGD)僅能夠順序地估計模型參數,不同語音數據之間存在時間上的依存關係,難以實現類 似Map-Reduce -樣的多機並行化算法,不容易做到加速DNN模型訓練的速度。為了達到更 好的語音識別準確率,在實際應用中傾向於使用海量數據來訓練DNN模型,但是如果使用 傳統的SGD方法,針對上千小時的數據訓練模型,往往需要幾個月的時間,難以滿足應用中 實時性的要求。因此實現DNN模型的並行化估計,越來越有價值。
[0005] 在研究領域中,人們首先引進類牛頓方法來估計DNN模型,這是一種二階的優化 方式。類牛頓算法首先近似估計一個二階的Hessian矩陣的逆矩陣,然後利用這個矩陣來 更新模型參數,這是一種訓練單元(batch)的訓練方式,不是在線(online)的訓練方式,即 所有數據僅更新一次模型,數據之間不存在時間上的依存關係,這樣就可以將數據拆分成 多塊,進而實現數據的並行化策略,以加速DNN模型參數估計。
[0006] 雖然二階優化在理論上等同於一階參數優化,並且在迭代收斂速度上快於傳統的 SGD方法。但是在大數據中,二階參數優化方式往往需要很多細節部分的調節,在缺少先驗 的知識下,二階優化往往沒有一階優化更健壯。具體的,對於語音識別中的DNN建模而言, 這種算法並不能達到SGD算法的良好性能。


【發明內容】

[0007] 本發明實施方式提出一種聲學模型訓練方法,以提高聲學模型的性能。
[0008] 本發明實施方式提出一種聲學模型訓練裝置,以提高聲學模型的性能。
[0009] 本發明實施方式的技術方案如下:
[0010] -種聲學模型訓練方法,該方法包括: toon] 建立深層神經網絡模型初始模型;
[0012] 將語音訓練數據劃分為N個不相交的數據子集合,針對每個數據子集合利用隨機 梯度下降算法更新所述深層神經網絡模型初始模型,得到N個深層神經網絡模型子模型, 其中N為至少為2的自然數;
[0013] 融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型中間模型,並當 該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經網絡模型中間 模型為訓練後聲學模型。
[0014] 一種聲學模型訓練裝置,包括初始模型建立單元、子模型獲取單元和融合單元,其 中:
[0015] 初始模型建立單元,用於建立深層神經網絡模型初始模型;
[0016] 子模型獲取單元,用於將語音訓練數據劃分為N個不相交的數據子集合,針對每 個數據子集合利用隨機梯度下降算法更新所述深層神經網絡模型初始模型,得到N個深層 神經網絡模型子模型,其中N為至少為2的自然數;
[0017] 融合單元,用於融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型 中間模型,並當該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神 經網絡模型中間模型為訓練後聲學模型。
[0018] 從上述技術方案可以看出,在本發明實施方式中,建立深層神經網絡模型初始模 型;將語音訓練數據劃分為N個不相交的數據子集合,針對每個數據子集合利用隨機梯度 下降算法更新所述深層神經網絡模型初始模型,得到N個深層神經網絡模型子模型,其中N 為至少為2的自然數;融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型中 間模型,並當該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經 網絡模型中間模型為訓練後聲學模型。由此可見,應用本發明實施方式之後,提出了深層神 經網絡並行訓練方法,可以使用不同語音數據同時訓練多個深層神經網絡子模型,然後將 這些子模型融合起來,得到一個性能更好的訓練後聲學模型,同時可以大大縮小模型訓練 所需的時間。
[0019] 而且,本發明實施方式可以使用多個深層神經網絡模型,解碼得到每個深層神經 網絡模型輸出的後驗概率,再將若干個後驗概率通過最優化的方式融合,得到最終的語音 識別輸出結果,這樣可以降低每個深層神經網絡模型輸出的後驗概率的偏差,並提高語音 識別的性能。

【專利附圖】

【附圖說明】
[0020] 圖1為現有技術HMM-DNN系統的處理流程圖;
[0021] 圖2為根據本發明實施方式的聲學模型訓練方法流程圖;
[0022] 圖3為根據本發明實施方式的DNN聲學模型訓練流程圖;
[0023] 圖4為根據本發明實施方式的DNN聲學模型測試流程圖;
[0024] 圖5為根據本發明實施方式的聲學模型訓練裝置結構圖。

【具體實施方式】
[0025] 為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步 的詳細描述。
[0026] 本發明實施方式關注聲學模型的訓練,聲學模型的訓練是語音識別技術的核心步 驟。
[0027] 語音識別是一個序列化的分類問題,目的是將收集到的一連串語音信號轉化為一 串文本輸出。由於語音信號存在時間上的關聯,即某一個時刻的語音數據與前面若干時刻 的語音數據相關。為了模擬語音數據產生的機制,馬爾科夫模型被引進語音識別領域當中。 為了進一步簡化模型的複雜度,馬爾科夫模型的每一個當前狀態僅和前一個時刻的狀態有 關。
[0028] 對於每個特定的語言來說,由於語音信號其最基本的發音單元均是有限數目, 觀測到一個特定發音的時候,其對應的文本並不一定相同,隱藏馬爾科夫模型(Hidden Markov Model,HMM)正好可以表達這一問題。在語音識別中,隱藏馬爾科夫模型作為最基本 的描述語音數據產生機制的模型一直沿用至今。同時,由於語音信號存在著豐富的變化可 能,同樣文本的語音,不同性別,不同地域,不同情緒,不同風格的人說出來,均存在著差異, 為了描述這一差異,高斯混合模型(Gaussian Mixture Model, GMM)被引入語音識別領域。 HMM-GMM的系統框架,主導語音識別領域多年,並在近年由於海量數據的引入,和網際網路技 術的發展,逐步可以滿足大量的現實需求。
[0029] 對於HMM-GMM系統而言,訓練一個具有較高識別率的聲學模型,需要大量有標註 的語音數據,利用EM算法估計HMM-GMM模型的各種參數。比如:對於中文而言,語音的發音 字典包含了 100多個不同的音素,而HMM-GMM模型通常使用的三因子(Triphone Model)模 型,則根據前後文的音素,擴展出來1〇〇萬左右各不同的音素模型,這就需要大量的有標註 的語音數據來對這些不同的音素模型進行建模。
[0030] 由於可用的有標註的語音數據往往都是較少的,不可能涵蓋所有的音素模型,對 於某些音素而言,對應的數據往往是稀疏的。這種情況下,待估計的參數數目,要比估計數 據多,就容易造成參數估計的不穩定,不能很好的模擬語音數據的真實情況。
[0031] 為了解決這一問題,提出決策樹方法。即根據不同音素的產生機制以及可用的估 計數據的多少,通過聚類的方式,將1〇〇萬個模型,聚類成為幾萬個模型,這樣就可以使得 每一個模型類包含較多的數據,可以較為準確地估計模型類。這種聚類方法,是根據可用的 語音數據,近似地對模型進行估計的一種方案。由於模型數目大大減少,每個模型類中,原 有的模型特性會被同一類中其他模型的特性掩蓋掉,最終導致模型類只是一個均值模型, 其模擬參數的能力並不強大。
[0032] 同時,HMM模型中包含有一個強假設:每個狀態至於前一狀態有關。這一假設破壞 了時間序列信號前後相關的特性。近年來,為了彌補這一假設,人們引進splice的補償方 式,就是把當前的語音信號前後擴展幾幀,拼成一個大的向量信號,然後進行HMM-GMM模型 的訓練,由於拼接信號帶來了高維度的問題,這一問題更加加大了數據量不充足的問題,因 此只能將這一高維信號進行降維操作,以達到數據和維度的平衡。這一操作難免引入信息 損耗,並不是一個合理的方案。
[0033] 隨著近年來深層神經網絡理論的成熟,解決了多層網絡訓練的問題,同時也可以 應用大量的非標註數據。在語音識別領域,DNN也顯示出強大的建模能力。無論是聲學模 型訓練還是語言模型訓練,深層神經網絡都體現出很好的實用效果。HMM-DNN識別框架逐漸 成為現在語音識別技術的主流。
[0034] 在傳統HMM-DNN模型訓練中,SGD算法僅能夠順序估計模型參數(即假如可供訓練 的語音數據一共有1〇〇萬條,SGD方法必須逐條使用,讀入第N條語音數據計算梯度;更新 DNN模型;然後讀入第N+1條語音數據,利用上次得到的DNN模型基礎進行計算梯度,再一 次更新DNN模型),不同語音數據之間存在時間上的依存關係,難以實現類似Map-Reduce - 樣的多機並行化算法,不容易做到加速DNN模型訓練的速度。
[0035] 為了達到更好的語音識別準確率,在實際應用中傾向於使用海量數據來訓練DNN 模型,但是如果使用傳統的SGD方法,上千小時的數據訓練模型,往往需要幾個月的時間, 難以滿足應用中實時性的要求。因此實現DNN模型的並行化估計,越來越有價值。
[0036] 同時由於神經網絡仍然是一種基於數據驅動得到的統計模型,如果訓練數據中包 含一定的傾向性,比如都是來自電話的語音數據,通過SGD算法得到的最終DNN模型,還是 會存在一定的偏差,它會更好的識別來自於電話信道的語音數據,而對其他來源的語音數 據,識別率會偏低。從原理上看,DNN網絡輸出的是有關某個綁定音素狀態的後驗概率,這 個後驗概率具有一定的概率分布。它具有一個變化範圍,稱之為誤差。這個誤差造成語音 識別中由電話風格語音數據訓練的DNN模型對來自其他風格的語音數據的識別結果較差。
[0037] 本發明實施方式針對這個問題,同時還可以在解碼器端提出了一種降低該誤差的 方法。即使用多個DNN模型解碼,得到每個DNN模型輸出的後驗概率,將若干個後驗概率通 過最優化的方式融合,得到最終的語音識別輸出結果。這樣可以降低每個DNN模型輸出的 後驗概率的偏差,提高語音識別的性能。
[0038] 圖1為現有技術的HMM-DNN系統執行流程圖。
[0039] 如圖1所示,傳統的HMM-DNN系統框架下,首先要訓練DNN聲學模型,然後利用DNN 模型和HMM模型的拓撲結構,完成解碼操作。
[0040] 要訓練DNN聲學模型,首先要獲取一定的資源文件,資源文件包括:
[0041] (1)、訓練數據的聲學特徵:把參與DNN模型訓練的數據(大約幾千小時)收集起 來,通過聲學參數提取模塊,獲得語音數據的聲學特徵,比如PLP,MFCC,FBank等。這些特徵 可以較好的反應語音數據中包含的文本信息(即語音識別的目的,將聲音轉換為文本)。
[0042] (2)、狀態級標註:使用HMM-GMM模型,對於全部訓練數據做強制性對齊 (A1 i gnment),得到某個語音特徵文件,不同時間節點的特徵對應的音素狀態。
[0043] (3)、HMM模型拓撲結構:即使用傳統HMM-GMM框架訓練好的HMM模型,包含最終 聚類的狀態數目,狀態綁定列表,音素綁定列表,以及狀態之間的轉移概率,這些都是在DNN 模型訓練和測試中需要的資源。
[0044] (4)、DNN模型拓撲結構:輸入特徵前後擴展的幀數,DNN網絡層次,DNN網絡節點數 目,激活函數形式等資源。
[0045] 要測試HMM-DNN模型的性能,需要獲取另外一批資源,這包括:
[0046] (5)、語言模型:即表徵各個詞之間的相互關係的文件。常用的語言模型為 N-gram,即當前詞給定N-1個詞歷史的情況下的出現概率。
[0047] (6)、發音字典:每個詞如何發音,具體的是指每個詞對應的音素基本單元序列。
[0048] 傳統的DNN模型的訓練流程如下:
[0049] 步驟1,根據準備好的DNN模型拓撲結構,建立DNN模型的初始模型,並且設定SOT 所需的參數,如學習率(learning rate),動量項(Momentum),最小訓練單元(mini-batch size)等。
[0050] 步驟2,把所有的語音訓練數據隨機排列成一個語音文件序列,SGD算法按照排列 好的順序,按照最小訓練單元(mini-batch)的大小,逐次讀入特徵文件以及對應的狀態級 標註文件,更新DNN模型。
[0051] 步驟3,在全部語音訓練數據都參與DNN模型的更新之後,就完成了一次迭代訓 練,這時候得到一個DNN的中間模型。需要使用開發集合來交叉驗證(Cross Validation) 該中間模型是否最優。具體包括:使用開發集合的語音數據,在DNN中間模型上計算幀級的 準確率;如果開發集合上的準確率大於預先設置好的門限,就可以結束訓練,將DNN中間模 型作為DNN最終模型;如果小於預先設置好的門限,則說明這個中間模型還不是最優模型, 這時候就跳到步驟2,繼續訓練。
[0052] 在得到了 DNN模型之後,傳統方式需要同時獲得語言模型(Language Model),發 音字典(Lexicon),音素集合(Phoneset)等資源。通過動態或者靜態擴展解碼空間,使用維 特比解碼(Viterbi Algorithm)方法,將語音文件轉換為文本文件。
[0053] 本發明實施方式提出一種聲學模型訓練方法,是一種並行的DNN聲學模型訓練框 架,可以替代傳統DNN模型的訓練部分。
[0054] 本發明實施方式針對一階優化SGD方法,在DNN的聲學模型訓練當中,提出了一種 近似的並行化估計策略。即使用不同語音數據,同時訓練多個DNN模型,然後採用最優化策 略,將這些模型融合起來,得到一個比得到的多個DNN模型性能更好的一個DNN模型。
[0055] 圖2為根據本發明實施方式的聲學模型訓練方法流程圖。
[0056] 如圖2所示,該方法包括:
[0057] 步驟201 :建立深層神經網絡模型初始模型;
[0058] 步驟202 :將語音訓練數據劃分為N個不相交的數據子集合,針對每個數據子集合 利用隨機梯度下降算法更新所述深層神經網絡模型初始模型,得到N個深層神經網絡模型 子模型,其中N為至少為2的自然數;
[0059] 在這裡,可以將語音訓練數據隨機排列成語音文件序列;然後再將該語音文件序 列劃分為N個不相交的數據子集合。
[0060] 步驟203 :融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型中間 模型,並當該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經網 絡模型中間模型為訓練後聲學模型
[0061] 在一個實施方式中,在融合所述N個深層神經網絡模型子模型的過程中,每個深 層神經網絡模型子模型的所有層次共享融合權重。
[0062] 在一個實施方式中,在融合所述N個深層神經網絡模型子模型的過程中,每個深 層神經網絡模型子模型的各個層次的融合權重並不相同。
[0063] 該方法進一步包括:
[0064] 收集Μ個訓練後聲學模型,其中Μ為至少為2的自然數;
[0065] 對於同一個測試語音數據,分別使用所述Μ個訓練後聲學模型解碼出Μ個後驗概 率序列;
[0066] 融合所述Μ個後驗概率序列,以得到語音識別結果。
[0067] 在一個實施方式中,所述融合所述Μ個後驗概率序列包括:在融合所述Μ個後驗概 率序列的過程中,每個後驗概率序列的所有綁定音素狀態共享融合權重。
[0068] 在一個實施方式中,所述融合所述Μ個後驗概率序列包括:在融合所述Μ個後驗概 率序列的過程中,每個後驗概率序列的各個綁定音素狀態的融合權重並不相同。
[0069] 基於上述分析,下面描述根據本發明實施方式訓練DNN聲學模型的示範性實例。
[0070] 圖3為根據本發明實施方式的DNN聲學模型訓練流程圖。
[0071] 首先要獲取一定的資源文件,資源文件包括:
[0072] (1)、訓練數據的聲學特徵:把參與DNN模型訓練的數據(大約幾千小時)收集起 來,通過聲學參數提取模塊,獲得語音數據的聲學特徵,比如PLP,MFCC,FBank等。這些特徵 可以較好的反應語音數據中包含的文本信息(即語音識別的目的,將聲音轉換為文本)。
[0073] (2)、狀態級標註:使用HMM-GMM模型,對於全部訓練數據做強制性對齊 (A1 i gnment),得到某個語音特徵文件,不同時間節點的特徵對應的音素狀態。
[0074] (3)、HMM模型拓撲結構:即使用傳統HMM-GMM框架訓練好的HMM模型,包含最終 聚類的狀態數目,狀態綁定列表,音素綁定列表,以及狀態之間的轉移概率,這些都是在DNN 模型訓練和測試中需要的資源。
[0075] (4)、DNN模型拓撲結構:輸入特徵前後擴展的幀數,DNN網絡層次,DNN網絡節點數 目,激活函數形式等資源。
[0076] 要測試HMM-DNN模型的性能,需要獲取另外一批資源,這包括:
[0077] (5)、語言模型:即表徵各個詞之間的相互關係的文件。常用的語言模型為 N-gram,即當前詞給定N-1個詞歷史的情況下的出現概率。
[0078] (6)、發音字典:每個詞如何發音,具體的是指每個詞對應的音素基本單元序列。
[0079] 而且,可以需要根據CPU集群的數目等方式,確定N值。
[0080] 如圖3所示,該流程包括:
[0081] 步驟1 :根據準備好的DNN模型拓撲結構,建立一個DNN模型的初始模型,並設定 好SGD之中所需的參數,如學習率(learning rate),動量項(Momentum),mini_batch size 以及待劃分子模型數目等。
[0082] 步驟2 :把所有的語音訓練數據隨機的排列成一個語音文件序列,再按照設定的 子模型數目N,將語音文件劃分為N個不相交的子集合。對於每個數據子集,均調用SGD算 法從其分配的數據子集中,按照排列好的順序,按照最小訓練單元(mini-batch)的大小,逐 次讀入特徵文件以及對應的狀態級標註文件,更新DNN模型的初始模型,得到N個DNN子模 型。
[0083] 步驟3 :使用DNN模型融合的開發集合,調用模型融合模塊通過最優化的方式將N 個DNN子模型融合起來,得到DNN中間模型。
[0084] 假定每個DNN子模型包含Η個層次,每層包含的參數寫為Wnh,其中η表示第η個 子模型,h表示第h個層次;η取[1,Ν]區間的整數,h取[1,Η]區間的整數。
[0085] 具體可以實時2個融合策略。
[0086] -個是模型級的融合,即每個子模型的所有層次共享一個融合權重。ΙΗη3?, χ=&1Ι1χ+ a2*W2x+. · · +aN*WNx ;Wfinal,x表示最終融合之後權重的第X層,X取[1,Η]之間的整數,另夕卜權 重滿足al+a2+. · · +aN=l這個條件。
[0087] 另一個策略是層次級融合,即每個子模型的各個層次參數的權重不相同。W finai, x=alx*Wlx+a2x*W2x+. . . +aNx*WNx,X表示第X層,取[1,Η]之間的整數,權重滿足條件 aix+a2x+· · · +aNx_l°
[0088] 可以使用各種優化手段來實現融合權重的估計,比如一階的梯度下降算法,二階 的LBFGS算法。
[0089] 步驟4,上述融合之後的DNN模型是一個DNN的中間模型,可以使用開發集合來交 叉驗證(Cross Validation)這個中間模型是否最優。具體包括:使用開發集合的語音數據, 在DNN中間模型上計算幀級的準確率。如果開發集合上的幀級準確率大於預先設置好的門 限,就可以結束訓練,將DNN中間模型作為DNN最終模型;如果小於預先設置好的門限,則說 明這個中間模型還不是最優模型,這時候就跳到步驟2,繼續訓練。
[0090] 在根據上述流程得到DNN模型之後,可以利用傳統的HMM-DNN模型框架中的測試 方法來進行。
[0091] 優選地,本發明實施方式還提出訓練多個DNN聲學模型的算法,其中各個DNN模型 必須保證輸出的狀態數目是一致的,並且這些狀態的均來自同一個HMM-GMM模型。除了這 個要求之外,各個DNN模型的拓撲結構(深層神經網絡的層數,隱藏層節點數目)可以不同; 訓練方式(比如採用傳統的DNN訓練方法或採用本發明實施方式提出的並行訓練方法)可以 不同;訓練參數(學習率,動量項,mini-batch size等)設置可以不同;以及所採用的語音 訓練數據可以不同。
[0092] 圖4為根據本發明實施方式的DNN聲學模型測試流程圖。
[0093] 如圖4所示,該方法包括:
[0094] 步驟1 :收集Μ個不同的DNN聲學模型,以及類似傳統HMM-DNN解碼過程中的所有 資源文件。
[0095] 步驟2 :對於同一個測試語音,分別使用Μ個DNN模型解碼出Μ個後驗概率的序列。 [0096] 步驟3 :利用開發集合,使將步驟2中得到的Μ個概率序列融合起來,得到最終的 語音識別結果。
[0097] 基於上述詳細分析,本發明實施方式還提出了一種聲學模型訓練裝置。
[0098] 圖5為根據本發明實施方式的聲學模型訓練裝置結構圖。
[0099] 如圖5所示,聲學模型訓練裝置包括初始模型建立單元501、子模型獲取單元502 和融合單元503,其中:
[0100] 初始模型建立單元501,用於建立深層神經網絡模型初始模型;
[0101] 子模型獲取單元502,用於將語音訓練數據劃分為Ν個不相交的數據子集合,針對 每個數據子集合利用隨機梯度下降算法更新所述深層神經網絡模型初始模型,得到Ν個深 層神經網絡模型子模型,其中Ν為至少為2的自然數;
[0102] 融合單元503,用於融合所述Ν個深層神經網絡模型子模型以得到深層神經網絡 模型中間模型,並當該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深 層神經網絡模型中間模型為訓練後聲學模型。
[0103] 在一個實施方式中:
[0104] 子模型獲取單元502,用於將語音訓練數據隨機排列成語音文件序列;將該語音 文件序列劃分為Ν個不相交的數據子集合。
[0105] 在一個實施方式中:
[0106] 融合單元503,用於在融合所述N個深層神經網絡模型子模型的過程中,每個深層 神經網絡模型子模型的所有層次共享融合權重。
[0107] 在一個實施方式中:
[0108] 融合單元503,用於在融合所述N個深層神經網絡模型子模型的過程中,每個深層 神經網絡模型子模型的各個層次的融合權重並不相同。
[0109] 在一個實施方式中,進一步包括測試單元504,其中:
[0110] 測試單元504,用於收集Μ個訓練後聲學模型,其中Μ為至少為2的自然數;對於 同一個測試語音數據,分別使用所述Μ個訓練後聲學模型解碼出Μ個後驗概率序列;融合所 述Μ個後驗概率序列,以得到語音識別結果。
[0111] 在一個實施方式中:
[0112] 測試單元504,用於在融合所述Μ個後驗概率序列的過程中,每個後驗概率序列的 所有綁定音素狀態共享融合權重。
[0113] 在一個實施方式中:
[0114] 測試單元504,用於在融合所述Μ個後驗概率序列的過程中,每個後驗概率序列的 各個綁定音素狀態的融合權重並不相同。
[0115] 可以將圖2所示方法集成到各種語音識別的硬體實體當中。比如,可以集成到:功 能手機、智慧型手機、掌上電腦、個人電腦(PC)、平板電腦或個人數字助理(PDA),等等設備之 中。
[0116] 實際上,可以通過多種形式來具體實施本發明實施方式所提出的聲學模型訓練方 法。比如,可以遵循一定規範的應用程式接口,將聲學模型訓練方法編寫為安裝到自然語 言處理伺服器中的插件程序,也可以將其封裝為應用程式以供用戶自行下載使用。當編寫 為插件程序時,可以將其實施為ocx、dll、cab等多種插件形式。也可以通過Flash插件、 RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術來實施本發明實施方 式所提出的聲學模型訓練方法。
[0117] 可以通過指令或指令集存儲的儲存方式將本發明實施方式所提出的聲學模型訓 練方法存儲在各種存儲介質上。這些存儲介質包括但是不局限於:軟盤、光碟、DVD、硬碟、閃 存、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
[0118] 另外,還可以將本發明實施方式所提出的聲學模型訓練方法應用到基於快閃記憶體 (Nand flash)的存儲介質中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡 等。
[0119] 綜上所述,在本發明實施方式中,建立深層神經網絡模型初始模型;將語音訓練數 據劃分為N個不相交的數據子集合,針對每個數據子集合利用隨機梯度下降算法更新所述 深層神經網絡模型初始模型,得到N個深層神經網絡模型子模型,其中N為至少為2的自然 數;融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型中間模型,並當該深 層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經網絡模型中間模型 為訓練後聲學模型。由此可見,應用本發明實施方式之後,提出了深層神經網絡並行訓練方 法,可以使用不同語音數據同時訓練多個深層神經網絡子模型,然後將這些子模型融合起 來,得到一個性能更好的訓練後聲學模型,同時極大的減少了 DNN聲學模型的訓練時間。
[0120] 而且,本發明實施方式可以使用多個深層神經網絡模型解碼,得到每個深層神經 網絡模型輸出的後驗概率,再將若干個後驗概率通過最優化的方式融合,得到最終的語音 識別輸出結果,這樣可以降低每個深層神經網絡模型輸出的後驗概率的偏差,並提高語音 識別的性能。
[0121] 以上所述,僅為本發明的較佳實施例而已,並非用於限定本發明的保護範圍。凡在 本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護 範圍之內。
【權利要求】
1. 一種聲學模型訓練方法,其特徵在於,該方法包括: 建立深層神經網絡模型初始模型; 將語音訓練數據劃分為N個不相交的數據子集合,針對每個數據子集合利用隨機梯度 下降算法更新所述深層神經網絡模型初始模型,得到N個深層神經網絡模型子模型,其中N 為至少為2的自然數; 融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型中間模型,並當該深 層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經網絡模型中間模型 為訓練後聲學模型。
2. 根據權利要求1所述的聲學模型訓練方法,其特徵在於,所述將語音訓練數據劃分 為N個不相交的數據子集合包括: 將語音訓練數據隨機排列成語音文件序列; 將該語音文件序列劃分為N個不相交的數據子集合。
3. 根據權利要求1所述的聲學模型訓練方法,其特徵在於,所述融合所述N個深層神經 網絡模型子模型以得到深層神經網絡模型中間模型包括: 在融合所述N個深層神經網絡模型子模型的過程中,每個深層神經網絡模型子模型的 所有層次共享融合權重。
4. 根據權利要求1所述的聲學模型訓練方法,其特徵在於,所述融合所述N個深層神經 網絡模型子模型以得到深層神經網絡模型中間模型包括: 在融合所述N個深層神經網絡模型子模型的過程中,每個深層神經網絡模型子模型的 各個層次的融合權重並不相同。
5. 根據權利要求1所述的聲學模型訓練方法,其特徵在於,該方法進一步包括: 收集Μ個訓練後聲學模型,其中Μ為至少為2的自然數; 對於同一個測試語音數據,分別使用所述Μ個訓練後聲學模型解碼出Μ個後驗概率序 列; 融合所述Μ個後驗概率序列,以得到語音識別結果。
6. 根據權利要求5所述的聲學模型訓練方法,其特徵在於,所述融合所述Μ個後驗概率 序列包括: 在融合所述Μ個後驗概率序列的過程中,每個後驗概率序列的所有綁定音素狀態共享 融合權重。
7. 根據權利要求5所述的聲學模型訓練方法,其特徵在於,所述融合所述Μ個後驗概率 序列包括: 在融合所述Μ個後驗概率序列的過程中,每個後驗概率序列的各個綁定音素狀態的融 合權重並不相同。
8. -種聲學模型訓練裝置,其特徵在於,包括初始模型建立單元、子模型獲取單元和融 合單元,其中: 初始模型建立單元,用於建立深層神經網絡模型初始模型; 子模型獲取單元,用於將語音訓練數據劃分為Ν個不相交的數據子集合,針對每個數 據子集合利用隨機梯度下降算法更新所述深層神經網絡模型初始模型,得到Ν個深層神經 網絡模型子模型,其中Ν為至少為2的自然數; 融合單元,用於融合所述N個深層神經網絡模型子模型以得到深層神經網絡模型中間 模型,並當該深層神經網絡模型中間模型符合預先設定的收斂條件時,判定該深層神經網 絡模型中間模型為訓練後聲學模型。
9. 根據權利要求8所述的聲學模型訓練裝置,其特徵在於, 子模型獲取單元,用於將語音訓練數據隨機排列成語音文件序列;將該語音文件序列 劃分為N個不相交的數據子集合。
10. 根據權利要求8所述的聲學模型訓練裝置,其特徵在於, 融合單元,用於在融合所述N個深層神經網絡模型子模型的過程中,每個深層神經網 絡模型子模型的所有層次共享融合權重。
11. 根據權利要求8所述的聲學模型訓練裝置,其特徵在於, 融合單元,用於在融合所述N個深層神經網絡模型子模型的過程中,每個深層神經網 絡模型子模型的各個層次的融合權重並不相同。
12. 根據權利要求8所述的聲學模型訓練裝置,其特徵在於,進一步包括測試單元,其 中: 測試單元,用於收集Μ個訓練後聲學模型,其中Μ為至少為2的自然數;對於同一個測 試語音數據,分別使用所述Μ個訓練後聲學模型解碼出Μ個後驗概率序列;融合所述Μ個後 驗概率序列,以得到語音識別結果。
13. 根據權利要求12所述的聲學模型訓練裝置,其特徵在於, 測試單元,用於在融合所述Μ個後驗概率序列的過程中,每個後驗概率序列的所有綁 定音素狀態共享融合權重。
14. 根據權利要求12所述的聲學模型訓練裝置,其特徵在於, 測試單元,用於在融合所述Μ個後驗概率序列的過程中,每個後驗概率序列的各個綁 定音素狀態的融合權重並不相同。
【文檔編號】G10L15/06GK104143327SQ201310288097
【公開日】2014年11月12日 申請日期:2013年7月10日 優先權日:2013年7月10日
【發明者】王爾玉, 盧鯉, 張翔, 劉海波, 饒豐, 李露, 嶽帥, 陳波 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀