新四季網

語種識別系統中聲學特徵提取方法及裝置製造方法

2023-12-08 22:58:41 1

語種識別系統中聲學特徵提取方法及裝置製造方法
【專利摘要】本發明公開了一種語種識別系統中聲學特徵提取方法及裝置,該方法包括:接收輸入的語音信號;對所述語音信號進行分幀處理,獲取語音幀序列;提取所述語音幀序列中各語音幀的底層聲學特徵;基於高層發音單元對所述底層聲學特徵進行優化,得到所述高層發音單元的聲學特徵。利用本發明,可以有效提高語種識別性能。
【專利說明】語種識別系統中聲學特徵提取方法及裝置
【技術領域】
[0001]本發明涉及語種識別【技術領域】,具體涉及一種語種識別系統中聲學特徵提取方法及裝置。
【背景技術】
[0002]語種識別是指判斷給定語音信號所對應的語種類別。語種識別在機器自動翻譯、國際旅遊信息服務、電話轉接、購物股票交易等服務導航,國防安全等領域具有重要的應用價值。特別是近年來隨著通信技術的發展,軍事監控數據呈爆發式增長,如何從海量數據中篩選對象國的語音數據是實際中面臨的一項難題。
[0003]目前主流語種識別系統主要基於語音識別技術。具體的系統接收輸入的連續語音信號,並提取相應聲學特徵序列;隨後計算所述聲學特徵序列相應於各語種模型的相似度並選擇具有最大似然度的語種模型為期望語種。顯然語音信號的聲學特徵語種區分性直接影響到語種識別結果。目前語種識別系統主要提取語音信號的底層聲學信息,即對連續語音信號分巾貞處理後提取各語音巾貞的聲學特徵,如MFCC (Mel Frequency CepstrumCoefficient, Mel 頻率倒譜係數)特徵、PLP (Perceptual Linear Predictive,感知線性預測係數)特徵等。
[0004]底層聲學特徵如語音幀的MFCC特徵、PLP特徵等主要用於描述語音信號的發音特點,並不能很好地體現語種的差異。這些特徵不僅包含了音素區分性信息,也混疊了說話人、信道、噪聲等各種幹擾信息,使得能夠區分語種的音素信息淹沒其中,從而影響語種識別效果。

【發明內容】

[0005]本發明提供一種語種識別系統中聲學特徵提取方法及裝置,以提高語種識別性倉泛。
[0006]為此,本發明提供如下技術方案:
[0007]—種語種識別系統中聲學特徵提取方法,包括:
[0008]接收輸入的語音信號;
[0009]對所述語音信號進行分幀處理,獲取語音幀序列;
[0010]提取所述語音幀序列中各語音幀的底層聲學特徵;
[0011]基於高層發音單元對所述底層聲學特徵進行優化,得到所述高層發音單元的聲學特徵。
[0012]優選地,所述底層聲學特徵為以下任意一種:LPCC特徵、濾波器FilterBank特徵、MFCC特徵、PLP特徵。
[0013]優選地,所述方法還包括:
[0014]在基於高層發音單元對所述底層聲學特徵進行優化之前,對所述底層聲學特徵提取一階差分和二階差分;[0015]將所述一階差分和二階差分與所述底層聲學特徵組成多維聲學特徵,並將所述多維聲學特徵作為新的底層聲學特徵。
[0016]優選地,所述基於高層發音單元對所述底層聲學特徵進行優化,得到所述高層發音單元的聲學特徵包括:
[0017]獲取各語音幀的前、後幀擴展聲學特徵;
[0018]將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,得到優化的擴展聲學特徵;
[0019]根據所述優化的擴展聲學特徵提取各語音幀上下文相關的擴展聲學特徵。
[0020]優選地,所述將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,得到優化的擴展聲學特徵包括:
[0021]將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,將所述深度置信網絡模型中間隱含層或特徵輸出層的輸出作為優化的擴展聲學特徵。
[0022]優選地,所述根據所述優化的擴展聲學特徵提取各語音幀上下文相關的擴展聲學特徵包括:
[0023]對所述優化的擴展聲學特徵基於前後相鄰語音幀進行差分擴展,得到各語音幀上下文相關的擴展聲學特徵。
[0024]一種語種識別系統中聲學特徵提取裝置,包括:
[0025]接收模塊,用於接收輸入的語音信號;
[0026]分幀處理模塊,用於對所述語音信號進行分幀處理,獲取語音幀序列;
[0027]特徵提取模塊,用於提取所述語音幀序列中各語音幀的底層聲學特徵;
[0028]優化模塊,用於基於高層發音單元對所述底層聲學特徵進行優化,得到所述高層發音單元的聲學特徵。
[0029]優選地,所述底層聲學特徵為以下任意一種:LPCC特徵、濾波器FilterBank特徵、MFCC特徵、PLP特徵。
[0030]優選地,所述裝置還包括:
[0031]差分提取模塊,用於在所述優化模塊基於高層發音單元對所述底層聲學特徵進行優化之前,對所述底層聲學特徵提取一階差分和二階差分;將所述一階差分和二階差分與所述底層聲學特徵組成多維聲學特徵,並將所述多維聲學特徵作為新的底層聲學特徵。
[0032]優選地,所述優化模塊包括:
[0033]擴展單元,用於獲取各語音幀的前、後幀擴展聲學特徵;
[0034]優化單元,用於將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,得到優化的擴展聲學特徵;
[0035]提取單元,用於根據所述優化的擴展聲學特徵提取各語音幀上下文相關的擴展聲學特徵。
[0036]優選地,所述優化單元,用於將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,將所述深度置信網絡模型中間隱含層或特徵輸出層的輸出作為優化的擴展聲學特徵。
[0037]優選地,所述提取單元,具體用於對所述優化的擴展聲學特徵基於前後相鄰語音幀進行差分擴展,得到各語音幀上下文相關的擴展聲學特徵。[0038]本發明實施例提供的語種識別系統中聲學特徵提取方法及裝置,針對提取的語音幀序列中各語音幀的底層聲學特徵,基於高層發音單元對其進行優化,提取更高層面的語音信息,突出聲學特徵中的音素信息而抑制其它幹擾信息,有效提升了語種識別性能。
【專利附圖】

【附圖說明】
[0039]為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0040]圖1是本發明實施例語種識別系統中聲學特徵提取方法的流程圖;
[0041]圖2是本發明實施例中基於深度置信網絡模型對底層聲學特徵進行優化的流程圖;
[0042]圖3是本發明實施例中深度置信網絡拓撲結構示意圖;
[0043]圖4是本發明實施例中深度置信網絡模型的訓練流程圖;
[0044]圖5是本發明實施例語種識別系統中聲學特徵提取裝置的一種結構示意圖;
[0045]圖6是本發明實施例語種識別系統中聲學特徵提取裝置的另一種結構示意圖。
【具體實施方式】
[0046]為了使本【技術領域】的人員更好地理解本發明實施例的方案,下面結合附圖和實施方式對本發明實施例作進一步的詳細說明。
[0047]針對現有的語種識別系統主要提取語音信號的底層聲學信息,不能很好地體現語種的差異,進而影響語種識別效果的問題,本發明實施例提供一種新的聲學特徵提取方法,通過提取高層面如音素層的語音信息,提高語音信號的語種信息區分性。
[0048]從語言學的角度,語種差異性主要體現各個語種之間發音音素的不同,音素的上下文搭配不同,以及不同音素出現的頻度不同等方面。為此,在本發明實施例的方法及裝置中,基於更高層面發音單元對語音幀聲學特徵優化,提取更高層面的語音信息,突出聲學特徵中的音素信息而抑制其它幹擾信息,有效提升了語種識別性能。
[0049]如圖1所示,是本發明實施例語種識別系統中聲學特徵提取方法的流程圖,包括以下步驟:
[0050]步驟101,接收輸入的語音信號。
[0051]步驟102,對所述語音信號進行分幀處理,獲取語音幀序列。
[0052]具體地,可以通過加漢明窗的方式對所述語音信號進行分幀處理,得到每幀數據。
[0053]在實際應用中,漢明窗的窗長可以選擇為25ms,前後兩幀窗移為10ms,疊加部分為 15ms ο
[0054]進一步地,還可以預先對所述語音信號進行預加重處理,以減少尖銳噪聲影響,提
升高頻信號。
[0055]步驟103,提取所述語音幀序列中各語音幀的底層聲學特徵。
[0056]在實際應用中,所述底層聲學特徵可以採用LPCC (Linear Predictive CepstralCoding,線性預測倒譜係數)特徵、濾波器FilterBank特徵、MFCC特徵或PLP特徵中的任意一種。[0057]為了描述方便,下面以MFCC特徵為例進行說明。
[0058]在提取各語音幀的MFCC特徵時,可以首先通過傅立葉變換和取模得到頻域信號,並經過三角濾波函數得到梅爾域的輸出,取對數經過離散餘弦變化進行去相關處理,得到N階MFCC參數。
[0059]進一步地,在實際應用中,還可以對所述底層聲學特徵提取一階差分和二階差分,然後將所述一階差分和二階差分與所述底層聲學特徵組成3N維聲學特徵。
[0060]差分運算的公式如下:
[0061 ]
【權利要求】
1.一種語種識別系統中聲學特徵提取方法,其特徵在於,包括: 接收輸入的語音信號; 對所述語音信號進行分幀處理,獲取語音幀序列; 提取所述語音幀序列中各語音幀的底層聲學特徵; 基於高層發音單元對所述底層聲學特徵進行優化,得到所述高層發音單元的聲學特徵。
2.根據權利要求1所述的方法,其特徵在於,所述底層聲學特徵為以下任意一種:LPCC特徵、濾波器FilterBank特徵、MFCC特徵、PLP特徵。
3.根據權利要求1所述的方法,其特徵在於,所述方法還包括: 在基於高層發音單元對所述底層聲學特徵進行優化之前,對所述底層聲學特徵提取一階差分和二階差分; 將所述一階差分和二階差分與所述底層聲學特徵組成多維聲學特徵,並將所述多維聲學特徵作為新的底層聲學特徵。
4.根據權利要求1至3任一項所述的方法,其特徵在於,所述基於高層發音單元對所述底層聲學特徵進行優化,得到 所述高層發音單元的聲學特徵包括: 獲取各語音幀的前、後幀擴展聲學特徵; 將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,得到優化的擴展聲學特徵; 根據所述優化的擴展聲學特徵提取各語音幀上下文相關的擴展聲學特徵。
5.根據權利要求4所述的方法,其特徵在於,所述將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,得到優化的擴展聲學特徵包括: 將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,將所述深度置信網絡模型中間隱含層或特徵輸出層的輸出作為優化的擴展聲學特徵。
6.根據權利要求4所述的方法,其特徵在於,所述根據所述優化的擴展聲學特徵提取各語音幀上下文相關的擴展聲學特徵包括: 對所述優化的擴展聲學特徵基於前後相鄰語音幀進行差分擴展,得到各語音幀上下文相關的擴展聲學特徵。
7.一種語種識別系統中聲學特徵提取裝置,其特徵在於,包括: 接收模塊,用於接收輸入的語音信號; 分幀處理模塊,用於對所述語音信號進行分幀處理,獲取語音幀序列; 特徵提取模塊,用於提取所述語音幀序列中各語音幀的底層聲學特徵; 優化模塊,用於基於高層發音單元對所述底層聲學特徵進行優化,得到所述高層發音單元的聲學特徵。
8.根據權利要求7所述的裝置,其特徵在於,所述底層聲學特徵為以下任意一種:LPCC特徵、濾波器FilterBank特徵、MFCC特徵、PLP特徵。
9.根據權利要求7所述的裝置,其特徵在於,所述裝置還包括: 差分提取模塊,用於在所述優化模炔基於高層發音單元對所述底層聲學特徵進行優化之前,對所述底層聲學特徵提取一階差分和二階差分;將所述一階差分和二階差分與所述底層聲學特徵組成多維聲學特徵,並將所述多維聲學特徵作為新的底層聲學特徵。
10.根據權利要求7至9任一項所述的裝置,其特徵在於,所述優化模塊包括: 擴展單元,用於獲取各語音幀的前、後幀擴展聲學特徵; 優化單元,用於將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,得到優化的擴展聲學特徵; 提取單元,用於根據所述優化的擴展聲學特徵提取各語音幀上下文相關的擴展聲學特徵。
11.根據權利要求10所述的裝置,其特徵在於: 所述優化單元,用於將所述擴展聲學特徵輸入預先訓練得到的深度置信網絡模型,將所述深度置信網絡模型中間隱含層或特徵輸出層的輸出作為優化的擴展聲學特徵。
12.根據權利要求10所述的裝置,其特徵在於: 所述提取單元,具體用於對所述優化的擴展聲學特徵基於前後相鄰語音幀進行差分擴展,得到各語音幀上下文相關的擴展聲學特徵。
【文檔編號】G10L15/02GK103559879SQ201310553080
【公開日】2014年2月5日 申請日期:2013年11月8日 優先權日:2013年11月8日
【發明者】劉俊華, 魏思, 胡國平, 方磊, 胡鬱 申請人:安徽科大訊飛信息科技股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀