一種基於聯合因子分析模型的行動裝置聲紋識別方法
2023-04-25 09:06:46 1
一種基於聯合因子分析模型的行動裝置聲紋識別方法
【專利摘要】本發明公開了一種基於聯合因子分析模型的行動裝置聲紋識別方法,包括背景模型庫訓練、用戶聲紋模型訓練(說話人訓練)和聲紋確認(說話人確認)三大部分,並採用聯合因子分析模型構建說話人空間、信道空間和殘差空間三個子空間,利用聯合因子分析模型技術,將聲紋識別系統移植到行動裝置端,使其成為一款可代替密碼的身份確認應用產品。本發明對聲紋識別在移動端應用的短板不足進行補充和改進,對說話人識別中的易變性幹擾,包括信道易變性和會話易變性進行估計和補償,使用戶可以通過較短的語音進行訓練和識別,並在不同背景環境下也能取得良好的識別效果。
【專利說明】一種基於聯合因子分析模型的行動裝置聲紋識別方法
【技術領域】
[0001]本發明公開了一種基於聯合因子分析模型的行動裝置聲紋識別方法,涉及聲紋識別【技術領域】。
【背景技術】
[0002]隨著模式識別技術的發展突破和電子設備運算速度和性能的提高,生物信息識別技術近年來在用戶身份確認領域中得到了飛速的發展。相較於傳統的密碼和PIN碼具有容易被竊取和複製的硬傷,生物信息(指紋、聲紋等)對於每一個用戶來說都具有唯一性,並且極難竊取複製。指紋識別由於其穩定、不易變化、不受外界條件影響等優點,已經被廣泛的應用在了打卡器和手持設備等電子產品中。聲紋識別技術也被應用在了保險箱解鎖、聲控門鎖和高檔轎車發動機啟動確認等領域。但在行動裝置上,尤其是智慧型手機端,聲紋識別在實用化過程中仍然有許多問題需要解決,主要有以下因素:
[0003]1.考慮到效率和便捷等因素,用戶用作訓練模型的語音不能多於30s,識別時的語音不能多於10s,這就帶來訓練數據不足的問題。
[0004]2.手機設備的易變性。由於不同型號智慧型手機的音頻處理晶片和算法的差異,讀取的音頻質量會有差別。
[0005]3.傳輸信道的易變性。由於蜂窩通信和VOIP等傳輸語音的技術對於語音的編解碼方式存在差異等。傳輸信道對語音的質量也有一定程度的畸變和損傷。
[0006]4.背景環境的易變性。由於行動裝置採集語音的地點無法固定。密閉環境、車廂、機場、戶外等,語音不可避免地會攜帶背景環境的信息,對聲紋模型(說話人模型)會有不同程度的影響。
[0007]5.聲紋的差異。同一用戶,說話時的語氣、感情、說話的內容和語種的不同也會對說話人模型帶來影響。
[0008]以上這些因素統稱為說話人識別中的易變性(variability)幹擾,其中,2、3、4統稱為信道易變性(channel variability), 5 稱為會話易變性(session variability)。
[0009]為了降低和消除以上這些幹擾對聲紋識別系統性能的影響,Patrick Kenny等研究者提出了一種在傳統的GMM-UBM (高斯混合模型-通用背景噪聲模型)聲紋識別系統基礎上的改進模型算法,稱為聯合因子分析(Joint Factor Analysis, JFA),如圖1所示。該方法在NIST2008說話人識別評比中取得了最優的成績,並且能夠有效處理易變性對聲紋模型帶來的幹擾。
[0010]JFA模型是一種兩層模型,基於經典的GMM-UBM框架。傳統的GMM-UBM模型已經驗證,不同聲紋模型的差異只在於每個高斯的均值向量,而每個高斯模型的權重和方差都可以直接來源於UBM的取值。傳統的UBM-GMM模型拋棄了訓練語音中大量的信道信息和會話信息。而JFA模型構建了三個子空間:說話人空間、信道空間和殘差空間,最終的高斯均值向量表徵為:
[0011]
【權利要求】
1.一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:包括背景模型庫訓練、用戶聲紋模型訓練和聲紋確認三部分,並採用聯合因子分析模型構建說話人空間、信道空間和殘差空間三個子空間;所述聯合因子分析模型的高斯均值向量表徵為:
Mki — mk+Ukxi+VkY s (i) +Dkzks (i) 其中,k代表第k個高斯模型,i代表某一個語音段,s(i)表不說話人s的某一語音段,mk表示獨立於說話人和會話內容的均值向量,Uk特徵信道矩陣,Vk表示特徵說話人矩陣,Dk表示殘差空間矩陣;Xi表示信道因子向量,ys(i)表示依賴於說話人的聲紋因子向量,zksW表示依賴於說話人和單個高斯模型的殘差因子向量; 所述背景模型庫訓練、用戶聲紋模型訓練和聲紋確認,具體如下: 一、背景模型庫訓練包括以下步驟: (1)採集行動裝置端的語料作為訓練數據; (2)對採集的語料進行平衡性分析,保持語音的長度相似,保證信道易變性和會話易變性的平衡; (3)對步驟(2)處理後的語料進行前端預處理,包括: (301)將語音信號分段加窗後 經過計算得出梅爾幅倒譜係數的特徵參數流; (302)以特徵參數流數據訓練通用背景模型(UBM); (303)將每一個語料利用最大後驗準則將其自適應到說話人模型上,再用構建特徵音空間的方法對表徵特定說話人模型的參數進行降維處理; (304)通過稀疏數據的EM算法最大化所有訓練數據中的整體似然度,針對所有說話人的語音段求統計量,構建特徵說話人矩陣Vk ; (4)構建特徵信道矩陣Uk,針對語料中某個固定說話人的語音段求統計量,特徵信道矩陣的維度固定為行動裝置端型號類型的數量; (5)構建殘差空間矩陣Dk,完善行動裝置端的聲紋識別背景模型庫建; 二、用戶聲紋模型訓練包括: 用戶由行動裝置端向伺服器端上傳一段訓練語音,行動裝置端對訓練語音進行預處理:伺服器端對訓練語音所對應的聲紋模型進行訓練和識別,伺服器端接收到訓練語音後,通過最大似然的辦法訓練模型,對信道因子向量X1、依賴於說話人的聲紋因子向量ys(i)、依賴於說話人和單個高斯模型的殘差因子向量zks(i)進行最大後驗概率估計,其中,ys(i)用以表徵該行動裝置端所對應的用戶的特徵向量,Xi和zks(i)用以補償信道易變性和會話易變性的幹擾; 伺服器端為行動裝置端所對應的用戶建立用戶聲紋模型,並將用戶聲紋模型返回到用戶的行動裝置端,用戶再上傳一段測試語音至伺服器端作為測試,並在伺服器端進行T-Norm和Z-Norm分數規整,用以放大用戶和其他人的分數區別,以此來設定門限值; 三、聲紋確認包括: 用戶輸入自己的一段解鎖語音至行動裝置,行動裝置端進行前端預處理之後將用戶解鎖語音信息發到伺服器端,伺服器端採用通用背景模型作為說話人的特徵向量,使用用戶的解鎖語音對殘差因子向量zks(i)和信道因子向量Xi進行估計,將估計後的參數與該行動裝置對應的註冊用戶的特徵向量ys(i)進行結合,計算解鎖語音對應的分數; 如果分數高於步驟二得到的門限值則確認用身份,解鎖行動裝置的使用權限,如果分數低於步驟二得到的門限值則拒絕解鎖行動裝置。
2.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:所述行動裝置端為手機或平板電腦。
3.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:在進行用戶聲紋模型訓練時,用戶由行動裝置端向伺服器端上傳的訓練語音長度大於30秒。
4.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:在進行用戶聲紋模型訓練時,用戶由行動裝置端向伺服器端上傳的測試語音長度為10秒。
5.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:在進行用戶聲紋確認時,用戶輸入的 解鎖語音長度為5秒至10秒。
【文檔編號】G10L15/30GK103730114SQ201310751242
【公開日】2014年4月16日 申請日期:2013年12月31日 優先權日:2013年12月31日
【發明者】李為, 朱傑, 姚國勤, 錢傳根, 杭樂 申請人:上海交通大學無錫研究院